DDPG神经网络实战（基于强化学习优化粒子群算法）

Product高德娱乐

0898-08980898

邮箱：: admin@eyoucms.com

电话：: 0898-08980898

传真：: 0000-0000-0000

手机：: 13800000000

地址：: 海南省海口市

新闻资讯

当前位置：首页 > 新闻资讯

DDPG神经网络实战（基于强化学习优化粒子群算法）　上传时间：2024-03-04 13:30:28

持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第20天，点击查看活动详情

前几天通过阅读这篇文献：《Reinforcement learning based parameters adaption method for particleswarm optimization》发现有些点还是比较新颖的，所以今天对论文的代码进行了整体的复现。整个过程大概花费了1天半（编码调试，不包括实验）

（PS:如果不想看论文的话，请查看这篇博客：关于强化学习优化粒子群算法的论文解读（全）在本篇博文将完整分析这篇论文的思路以及工作流程。而且说实话这篇论文其实我感觉复现起来没有一点难度，有些点还是比较新颖的，可以玩玩，顺便作为一个强化学习项目练练手。

日期：2022.6.27~2022.6.28

整个的项目结构如下：在这里插入图片描述

这里不做过多的解释了，不过值的一提的是，我这里是没有使用矩阵的写法的，因为整个项目一开始的目的就是为了使用Python作为实验，然后把Python代码转换为Java代码上Flink的，所以设计之初就是使用一个对象来存储一个粒子的，这样做的好处就是使用一个对象代替了好几个大的矩阵，也就是说不需要去维护矩阵了，而且写出来的代码可读性很高，并且刚好论文当中有使用CLPSO的速度更新方程来进行变体，所以他这里实现的话，也是很难直接使用矩阵来实现这个粒子之间的跟踪，以及锦标赛选择滴。

哦，对了额外说明一下这篇论文是发在arxiv上面的，不是什么IEEE这种顶刊，所以有些地方，他的描述是不严谨的，所以代码的总体的设计是按照论文来的，但是有些细节是不太一样的，不然代码都跑不起来。

然后这个项目也是验证跑了一下的，发现效果真的挺厉害的，说实话如果不是因为这个东西加了个DDPG，我想要玩玩这个神经网络，我根本就不会去想要复现这个玩意，而且一开始也是抱着怀疑的态度编写的，不过现在来看，还是挺厉害的，我一共训练了300轮每一轮PSO算法跑1000次。也就是说这里是跑了30万然后100个粒子，也就是3000万，本来的话，上午我是可以发出这篇文章记录一下的，但是后来改了几个bug然后调了几个参数，其实原来我还在训练3亿次的网络，但是实在顶不住了，最后改到0.3亿。

传统PSO（这里我没有展示优化过后的（原来我优化的）因为结果都一样被吊打）都是跑1000次传统：在这里插入图片描述