前言 Actor-Critic Methods 结合了价值学习和策略学习,同时训练了两个神经网络。 Actor 网络用于产生策略,Critic 网络用于评估策略。 目标 ① 更新策略网络Π的参数,是为
用策略函数指导动作 使用策略函数随机抽样得到动作。 近似策略函数 由于实际的策略函数无法得到,需要用各种方式去近似策略函数,所以这里可以使用神经网
寻找最佳的Q值函数 实际并不知道最佳的Q值函数,需要使用神经网络 Q(s,a;w) 来近似最佳的Q值函数。 实际流程大致为当前状态转换为矩阵后,通过卷积层提取特征
State 状态,即状态空间,表示环境中的当前状态。 Action && Agent 动作,即动作空间,表示在当前状态下,执行的动作。 动作由谁做的就是Agent,即智能体。 Policy Π 策
前言 观望了全网的Docker启用IPV6的方法,要么是Docker版本更替法子不通了,要么是没说明一些前置条件的细节,导致方法也用不了,所以
前言 老板下指示复现两篇文章,这是其中一篇 https://arxiv.org/pdf/2205.14105v1.pdf 文章的原理什么的已经大部分明白了但仍然有部分懂,故而做下记录,以备后续复现或深入了解 原始数据 ER4
前言 两篇文章的主体解析没有涉及作者进行模型比较的部分,这里主要解决一下该部分 由于两篇文章都涉及该方法的比较,所以重头戏是DQN以及其衍生的一
原地操作 使用 1 2 3 4 a = 1 b = 1 a += b print(a) # 结果是2 而不是使用 1 a = a + b 好处是内存不会复制扩展,只使用a和b的内存运算 1 2 3 4 import numpy as np X = np.arange(12).reshape(3,
前言 老板下指示复现两篇文章,这是其中一篇 https://arxiv.org/pdf/1810.10659.pdf 文章的原理什么的已经大致明白了但仍然有小部分不懂,故而做下记录,以备后续复现或深入了解 原始数据 Training Data
由于之前有写过一键安装jupyter的shell脚本,所以这里只需要找一个服务器就够了 https://github.com/spiritLHLS/one-click-installation-script#%E4%B8%80%E9%94%AE%E5%AE%89%E8%A3%85jupyter%E7%8E%AF%E5%A2%83 1 curl -L https://raw.githubusercontent.com/spiritLHLS/one-click-installation-script/main/install_scripts/jupyter.sh -o jupyter.sh && chmod +x jupyter.sh && bash jupyter.sh 又由于之前玩Linux积攒