本发明提供了一种用于高速列车应对动态客流的自动驾驶控制方法,其特征在于:首先利用Pareto支配原理、拥挤距离计算和k‑means聚类算法从人工驾驶曲线数据中获取专家驾驶曲线数据包;然后利用专家驾驶曲线数据包采用行为克隆的模仿学习方法和强化学习法获取强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型;然后利用上述三种策略网络模型针对三种客流峰值时段生成相应的自动驾驶曲线控制列车运行。采用本发明所述的自动驾驶控制方法,高速列车的驾驶策略能根据路段的客流峰值的变化进行调整,使路段上列车运行的效率和能耗配置更合理,从而使整个路段运营的效率提高、能耗降低。
1.一种用于高速列车应对动态客流的自动驾驶控制方法,其特征在于:设某高铁线路上从A站到相邻的B站之间的路段上将有n个列车运行,将从A站到B站的路段记为AB路段,AB路段的客流状况包括高峰客流、平峰客流和低峰客流;每个列车上均设置有自动驾驶曲线生成模块;所述自动驾驶控制方法还涉及地面中央控制模块,地面中央控制模块存储有AB路段的基础数据和多个AB路段的人工驾驶曲线数据;各个列车的自动驾驶曲线生成模块之间无线通信连接,每个列车的自动驾驶曲线生成模块均与所述地面中央控制模块无线通信连接;列车运行前,地面中央控制模块根据方法一对多个所述人工驾驶曲线数据进行处理,得到专家驾驶曲线数据包;然后地面中央控制模块将AB路段的基础数据和所述专家驾驶曲线数据包均发送给各个列车的自动驾驶曲线生成模块;然后根据方法二训练获取每个列车各自的强化节时策略网络模型、强化准点策略网络模型和强化节能策略网络模型;当AB路段当前的客流状况为高峰客流时,地面中央控制模块控制n个列车按虚拟连挂的模式运行,虚拟连挂的各个列车的驾驶曲线生成模块利用各自的强化节时策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;当AB路段当前的客流状况为平峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化准点策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;当AB路段当前的客流状况为低峰客流时,地面中央控制模块控制n个列车独立运行,各个列车的驾驶曲线生成模块利用各自的强化节能策略网络模型生成对应的自动驾驶曲线,各个列车根据对应的自动驾驶曲线运行;所述方法一包括:地面中央控制模块存储的AB路段的人工驾驶曲线数据包括多个人工驾驶曲线,单个所述人工驾驶曲线对应一个时间和能耗两目标优化的可行解,多个所述人工驾驶曲线对应多个所述可行解;1)将全部所述可行解进行Pareto支配,剔除被支配解,得到多个Pareto前沿解,多个所述Pareto前沿解形成Pareto前沿解集;然后利用拥挤距离计算对Pareto前沿解集进行裁剪,得到优化Pareto前沿解集,优化Pareto前沿解集中的单个Pareto前沿解对应一个专家驾驶曲线,优化Pareto前沿解集所辖的多个Pareto前沿解与多个专家驾驶曲线一一对应;2)采用k-means聚类算法对所述优化Pareto前沿解集所辖的多个Pareto前沿解进行分类处理得到节时类子数据、准点类子数据和节能类子数据;其中聚类中心的个数k值取3,3个初始的聚类中心点分别为节时中心点、准点中心点和节能中心点,所述节时中心点为Pareto前沿解集中耗时最短的Pareto前沿解,所述节能中心点为Pareto前沿解集中能耗最低的Pareto前沿解,将Pareto前沿解集中的最短耗时和最长耗时取平均值得到的耗时记为平均耗时,所述准点中心点为Pareto前沿解集中平均耗时对应的Pareto前沿解;通过k-means聚类算法处理,以节时中心点为初始聚类中心点得到的多个Pareto前沿解组成节时类子数据;以准点中心点为初始聚类中心点得到的多个Pareto前沿解组成准点类子数据;以节能中心点为初始聚类中心点得到的多个Pareto前沿解组成准点类子数据;所述节时类子数据、准点类子数据和节能类子数据组成专家驾驶曲线数据包;所述方法二包括:A)每个列车的自动驾驶曲线生成模块均采用行为克隆的模仿学习方法利用节时类子数据训练生成对应的初始节时策略网络模型、利用准点类子数据训练生成对应的初始准点策略网络模型、利用节能类子数据生成对应的初始节能策略网络模型;B)n个列车的自动驾驶曲线生成模块按方法三生成强化节时策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始准点策略网络模型进行训练得到强化准点策略网络模型;各个列车的自动驾驶曲线生成模块采用策略梯度方法对对应的初始节能策略网络模型进行训练得到强化节能策略网络模型;所述方法三包括:所述地面中央控制模块还设置有价值网络;将单个列车的自动驾驶曲线生成模块记为一个智能体,则n个列车的自动驾驶曲线生成模块对应n个智能体,n个智能体共同采用多智能体强化学习的方式训练得到各自的强化节时策略网络模型;其中,每个智能体拥有一个所述初始节时策略网络模型,n个初始节时策略网络模型共用一个所述价值网络;所述智能体的初始节时策略网络模型能独立做决策;所述价值网络能对多个智能体的决策做出评判,并将评判结果反馈给各个智能体以更新各自对应的初始节时策略网络模型。
本文链接:http://www.vipzhuanli.com/tech/sell/s_2310901.html,转载请声明来源钻瓜专利网。