[发明专利]一种基于扩散模型的强化学习DIPO构建方法在审

申请号：	202310763161.5	申请日：	2023-06-27
公开（公告）号：	CN116843037A	公开（公告）日：	2023-10-03
发明（设计）人：	黄志雄;文世挺;高云君;庞超逸;范良忠	申请（专利权）人：	浙大宁波理工学院
主分类号：	G06N20/00	分类号：	G06N20/00;G06N3/092
代理公司：	宁波甬致专利代理有限公司 33228	代理人：	袁波
地址：	315100 浙***	国省代码：	浙江;33
权利要求书：	暂无信息	说明书：	暂无信息
摘要：	本发明提供了一种基于扩散模型的强化学习DIPO方法，包括：步骤S1，获取以智能体为作用对象的强化学习算法的初始算法框架，使得智能体基于初始算法框架，通过智能体自身的预设策略与环境进行交互持续获取经验，并根据获取的经验生成经验池；步骤S2，提取出初始算法框架中当前状态下智能体做出的动作，并将动作沿着Q函数增加的方向做梯度上升得到对应的新动作；步骤S3，将新动作替换掉经验池中的动作，并采用扩散模型拟合得到新动作的分布，以构建得到DIPO算法框架。有益效果是本发明能够利用扩散模型强大的拟合能力，同时解决扩散模型无法进行策略提升的问题，使得智能体在每次更新后，其策略都能表现得比更新前更好。
搜索关键词：	一种基于扩散模型强化学习 dipo 构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利