[发明专利]基于强化学习技术的自主水下机器人速度和艏向控制方法有效

申请号：	202010087517.4	申请日：	2020-02-11
公开（公告）号：	CN111273677B	公开（公告）日：	2023-05-12
发明（设计）人：	秦洪德;孙延超;张佩;王卓;万磊;景锐洁;张宇昂;曹禹	申请（专利权）人：	哈尔滨工程大学
主分类号：	G05D1/06	分类号：	G05D1/06
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	时起磊
地址：	150001 黑龙江***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习技术自主水下机器人速度控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于强化学习技术的自主水下机器人速度和艏向控制方法，属于机器人控制技术领域。为了解决现有的水下机器人的控制方法依赖于控制对象模型精度的问题，以及不依赖模型的控制方法控制精度不高的问题。本发明设计了基于Q学习的速度和艏向控制器，将偏差和偏差变化率作为Q学习控制器的输入，将纵向推力和偏航力矩作为Q学习控制器的输出，使得Q学习控制器完全替代传统常规的控制器，从而达到水下机器人自主学习和自主决策的目标。主要用于水下机器人速度和艏向的控制。

技术领域

本发明涉及水下机器人速度和艏向控制方法。属于机器人控制技术领域。

背景技术

自主水下机器人作为无人智能海洋航行器的一种，在海洋资源探测和维护海洋权益中起到了重要作用，其运动控制性能的好坏在很大程度上会影响任务完成的效果。目前，随着自主水下机器人的应用日益广泛，人们对其运动性能提出了更高的要求，自主水下机器人的运动控制方法正向着高精度与智能化方向不断发展。传统的水下机器人控制策略研究主要是基于水下机器人数学模型，以此来进行控制器设计，这里的数学模型指的是由水下机器人动力学与运动学方程所构成的模型。这些研究通常假定水下机器人的运动服从一系列的运动学与动力学物理方程，方程中的物理学参数需要通过大量的水下实验进行测定，从而在模型已知的条件下设计精准的控制策略；另外，模型的不精确性也会对控制器的控制性能产生较大的影响，这就需要对模型的不精确性进行补偿，导致控制律复杂，并且在水下机器人实际作业中，复杂多变的海洋环境，也对其控制系统提出了极大的挑战。

随着机器学习的不断发展，水下机器人的智能控制问题引起了越来越多的学者们的兴趣与重视。强化学习作为典型的机器学习方法，能够使机器如人类学习一般，在不断的重复性工作中累积经验，在以后遇到同样或者类似情况下能够自主作出最优决策。对于自主水下机器人的运动控制而言，基于强化学习的控制器是一种不基于模型的控制方法，不需要精确的水动力系数，仅通过与环境的不断交互，便可以实现自主学习和自主决策，从而最终实现对自主水下机器人的运动控制，但是目前的基于强化学习的控制器的控制效果有待于进一步提高。

发明内容

本发明是为了解决现有的水下机器人的控制方法依赖于控制对象模型精度的问题，以及不依赖模型的控制方法控制精度不高的问题。

一种基于强化学习技术的自主水下机器人速度和艏向控制方法，包括以下步骤：

利用Q学习网络建立速度控制器和艏向控制器；

基于Q学习的速度控制器的输入是速度的偏差和速度的偏差变化率，经过Q学习算法，输出是纵向推力；

基于Q学习的艏向控制器的输入为艏向角的偏差、艏向角的偏差变化率以及水下机器人的实时速度，经过Q学习算法，最终输出的是水下机器人偏转所需要的偏航力矩；

结合Q学习的特点，对状态和动作进行划分；

基于Q学习的速度和艏向控制器奖惩函数形式如下：

其中，σ表示下一时刻的偏差向量，对于速度控制器对于艏向控制器e_u为速度偏差值，为速度偏差变化率，为艏向偏差值，为艏向偏差变化率；Λ为二阶对角矩阵，代表的是σ的各个分量对奖惩函数的影响因子；a为奖励函数的量级控制参数，对奖励函数的量级进行控制；奖励函数中的第二项中，对于速度控制器u_t＝τ_u，对于艏向控制器u_t＝τ_r；为u_t前10步的平均值；c₁和c₂均为大于零的正数，分别表示第一项和第二项对奖惩函数的影响因子；

基于Q学习的速度控制器和艏向控制器，其动作选择方式为ε贪婪策略；对速度控制器和艏向控制器学习更新，从而实现自主水下机器人速度和艏向控制。

有益效果：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010087517.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种新型太阳能电池及其制备方法
下一篇：一种新型沟槽碳化硅晶体管器件及其制作方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习技术的自主水下机器人速度和艏向控制方法有效

专利文献下载