[发明专利]基于改进Double DQN的自动驾驶决策方法及系统在审
申请号: | 202310303645.1 | 申请日: | 2023-03-24 |
公开(公告)号: | CN116300944A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 时培成;张建国;杨礼;周自宝;陈智松;单子贤;朱繁;刘玉柱;高坤;周定华;丁振同;海滨;周之光;张荣芸;王建平;武新世;沙文瀚;王云涛;王天赐 | 申请(专利权)人: | 安徽工程大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 芜湖安汇知识产权代理有限公司 34107 | 代理人: | 钟雪 |
地址: | 241000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 double dqn 自动 驾驶 决策 方法 系统 | ||
本发明公开一种基于改进Double DQN的自动驾驶决策方法,包括如下步骤:S1、采集自动驾驶车辆周边的环境信息,对采集到的环境信息进行预处理,剔除环境信息中与车辆自动驾驶行为无关的噪声;S2、基于预处理后的环境信息搭建仿真环境,并设置决策约束条件,在仿真平台上搭建改进Double DQN神经网络;S3、对改进Double DQN神经网络进行训练,将自动驾驶车辆实时采集到的环境信息进行预处理后输入训练好的Double DQN神经网络,输出当前最优的执行动作。采用目标网络组计算动作价值函数取最小值,改善了传统算法中因目标网络计算动作价值函数时采用最大化而带来的过估计问题;目标网络组分别采用滑动更新和直接复制的双更新机制提高了基于深度强化学习的网络参数更新效率。
技术领域
本发明属于无人驾驶技术领域,更具体地,本发明涉及一种基于改进Double DQN的自动驾驶决策方法及系统。
背景技术
自动驾驶汽车的决策研究目前主要分为三个研究方向:1)传统基于规则的决策方法、2)基于机器学习方法、3)基于深度强化学习的决策方法。
基于传统规则的决策方法在面对现实生活中复杂的交通环境时,规则制定较为困难;基于机器学习的方法,在具体实施时需要大量的标签数据,耗费大量的人力物力,在具体实现时难度比较大。深度强化学习的决策方法最接近于人的思维方式,结合了深度学习中特征提取处理大量数据和强化学习的连续决策的优势,性能及泛化能力得以加强。
虽然基于深度强化学习的决策方法在自动驾驶领域已经有了一定的发展,但传统算法中目标网络计算动作价值函数时仍然采用最大化操作。此外,神经网络参数更新方式采用的是直接复制在线网络的方式,更新间隔固定。这些缺陷会导致算法在计算动作价值函数时存在过估计和神经网络参数更新效率低等问题。
发明内容
本发明提供一种基于改进Double DQN的自动驾驶决策方法,旨在改善上述问题。
本发明是这样实现的,一种基于改进Double DQN的自动驾驶决策方法,所述方法具体包括如下步骤:
S1、采集自动驾驶车辆周边的环境信息,对采集到的环境信息进行预处理,剔除环境信息中与车辆自动驾驶行为无关的噪声;
S2、基于预处理后的环境信息搭建仿真环境,并设置决策约束条件,在仿真平台上搭建改进Double DQN神经网络;
S3、对改进Double DQN神经网络进行训练,将自动驾驶车辆实时采集到的环境信息进行预处理后输入训练好的Double DQN神经网络,输出当前最优的执行动作。
进一步的,预处理后的环境信息包括:当前环境中的车道宽度d、车道数n,车辆数m,环境中其他车辆相对于自动驾驶车辆的相对位移(x,y)、相对速度(vx,vy)和相对加速度(ax,ay)以及其他车辆的长度L和宽度W,仿真环境的搭建方法具体如下:
S21、依据实际的车道宽度d、车道数n模拟实际的道路环境;
S22、基于实际的车辆数m、环境中其他车相对于自动驾驶车辆的相对位移(x,y)、速度(vx,vy)和加速度(ax,ay),其他车辆的长度L和宽度W模拟实际的行车环境。
进一步的,改进Double DQN神经网络包含一个在线网络Q1和两个目标网络T2、T3。
进一步的,改进Double DQN神经网络的训练方法具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽工程大学,未经安徽工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310303645.1/2.html,转载请声明来源钻瓜专利网。