Deep Q-Network (DQN) (Value-Based learning)
寻找最佳的Q值函数
实际并不知道最佳的Q值函数,需要使用神经网络 Q(s,a;w) 来近似最佳的Q值函数。
实际流程大致为当前状态转换为矩阵后,通过卷积层提取特征向量,再通过全连接层得到Q值向量,此时的Q值向量每一个元素代表某一个动作的得分。
实际并不知道最佳的Q值函数,需要使用神经网络 Q(s,a;w) 来近似最佳的Q值函数。
实际流程大致为当前状态转换为矩阵后,通过卷积层提取特征向量,再通过全连接层得到Q值向量,此时的Q值向量每一个元素代表某一个动作的得分。
状态,即状态空间,表示环境中的当前状态。
动作,即动作空间,表示在当前状态下,执行的动作。
动作由谁做的就是Agent
,即智能体。
策略,即策略空间,表示在当前状态下,智能体可以采取的动作。
观望了全网的Docker启用IPV6的方法,要么是Docker版本更替法子不通了,要么是没说明一些前置条件的细节,导致方法也用不了,所以这里记录一下我走通的方法,一个兼容高低版本Docker和不同网络环境的方法
老板下指示复现两篇文章,这是其中一篇
https://arxiv.org/pdf/2205.14105v1.pdf
文章的原理什么的已经大部分明白了但仍然有部分懂,故而做下记录,以备后续复现或深入了解
https://ojs.aaai.org/index.php/AAAI/article/download/5723/5579
https://journals.aps.org/rmp/abstract/10.1103/RevModPhys.74.47
分别命名为ER和BA数据集
两篇文章的主体解析没有涉及作者进行模型比较的部分,这里主要解决一下该部分
由于两篇文章都涉及该方法的比较,所以重头戏是DQN
以及其衍生的一些变体,还有部分别的模型,是需要提前了解的。
使用
|
|
而不是使用
|
|
好处是内存不会复制扩展,只使用a和b的内存运算
|
|
检测内存是否一致,在下面的例子中,用Python的id()函数演示了这一点, 它提供了内存中引用对象的确切地址。 运行Y = Y + X
后,会发现id(Y)指向另一个位置。 这是因为Python首先计算Y + X,为结果分配新的内存,然后使Y指向内存中的这个新位置。
老板下指示复现两篇文章,这是其中一篇
https://arxiv.org/pdf/1810.10659.pdf
文章的原理什么的已经大致明白了但仍然有小部分不懂,故而做下记录,以备后续复现或深入了解
https://www.cs.ubc.ca/~hoos/SATLIB/benchm.html
https://helda.helsinki.fi/bitstream/handle/10138/224324/sc2017-proceedings.pdf
由于之前有写过一键安装jupyter的shell脚本,所以这里只需要找一个服务器就够了
|
|
命题逻辑:(又称命题演算、布尔逻辑)是最简单的一种形式逻辑系统。
主要研究对象:命题(常用p,q,r…代表任意命题即命题变元)每个命题可能为真,也可能为假(通常用1/0或T/F或T/⊥表示)。
要通过WiFi共享D盘给其他电脑,可以使用以下方法:
1.创建共享文件夹:首先,需要在D盘上创建一个共享文件夹。右键单击D盘上的文件夹,选择"属性",然后切换到"共享"选项卡。点击"高级共享",勾选"共享此文件夹"选项,并为文件夹指定一个共享名称。(或者直接就右键D盘,打开属性)