Actor-Critic Methods

二叉树上的我发布于 2023-09-08 收录于机器学习 python

前言 Actor-Critic Methods 结合了价值学习和策略学习，同时训练了两个神经网络。 Actor 网络用于产生策略，Critic 网络用于评估策略。目标 ① 更新策略网络Π的参数，是为

Policy-Based learning

二叉树上的我发布于 2023-09-07 收录于机器学习 python

用策略函数指导动作使用策略函数随机抽样得到动作。近似策略函数由于实际的策略函数无法得到，需要用各种方式去近似策略函数，所以这里可以使用神经网

Deep Q-Network (DQN) (Value-Based learning)

二叉树上的我发布于 2023-09-06 收录于机器学习 python

寻找最佳的Q值函数实际并不知道最佳的Q值函数，需要使用神经网络 Q(s,a;w) 来近似最佳的Q值函数。实际流程大致为当前状态转换为矩阵后，通过卷积层提取特征

强化学习术语翻译

二叉树上的我发布于 2023-09-05 收录于机器学习 python

State 状态，即状态空间，表示环境中的当前状态。 Action && Agent 动作，即动作空间，表示在当前状态下，执行的动作。动作由谁做的就是Agent，即智能体。 Policy Π 策

为Docker配置启用IPV6网络并配置给容器自动分配IPV6地址(2023最新)

二叉树上的我发布于 2023-08-29 收录于电脑技巧

前言观望了全网的Docker启用IPV6的方法，要么是Docker版本更替法子不通了，要么是没说明一些前置条件的细节，导致方法也用不了，所以

高效探索学习解决组合图分区问题(基于强化学习的优化算法)

二叉树上的我发布于 2023-08-23 收录于机器学习 python

前言老板下指示复现两篇文章，这是其中一篇 https://arxiv.org/pdf/2205.14105v1.pdf 文章的原理什么的已经大部分明白了但仍然有部分懂，故而做下记录，以备后续复现或深入了解原始数据 ER4

图优化问题经常拿来比较的一些模型

二叉树上的我发布于 2023-08-16 收录于机器学习 python

前言两篇文章的主体解析没有涉及作者进行模型比较的部分，这里主要解决一下该部分由于两篇文章都涉及该方法的比较，所以重头戏是DQN以及其衍生的一

Python加速科学运算的一些小技巧

二叉树上的我发布于 2023-08-12 收录于机器学习 python

原地操作使用 1 2 3 4 a = 1 b = 1 a += b print(a) # 结果是2 而不是使用 1 a = a + b 好处是内存不会复制扩展，只使用a和b的内存运算 1 2 3 4 import numpy as np X = np.arange(12).reshape(3,

通过GCN生成概率图引导树搜索解决图的组合优化问题

二叉树上的我发布于 2023-08-08 收录于机器学习 python

前言老板下指示复现两篇文章，这是其中一篇 https://arxiv.org/pdf/1810.10659.pdf 文章的原理什么的已经大致明白了但仍然有小部分不懂，故而做下记录，以备后续复现或深入了解原始数据 Training Data

深度学习环境安装(李沐老师相关)

二叉树上的我发布于 2023-07-27 收录于机器学习 python

由于之前有写过一键安装jupyter的shell脚本，所以这里只需要找一个服务器就够了 https://github.com/spiritLHLS/one-click-installation-script#%E4%B8%80%E9%94%AE%E5%AE%89%E8%A3%85jupyter%E7%8E%AF%E5%A2%83 1 curl -L https://raw.githubusercontent.com/spiritLHLS/one-click-installation-script/main/install_scripts/jupyter.sh -o jupyter.sh && chmod +x jupyter.sh && bash jupyter.sh 又由于之前玩Linux积攒

1
2
3
4
5
6
17