本发明涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人技术领域,一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。本发明提供的具有自主学习能力的在线序列极限学习机方法,以在线序列极限学习机为框架,结合强化Q学习,提出了一种具有自主学习能力的在线序列极限学习机方法,并将该模型运用到移动机器人路径规划研究中,使机器人根据外部环境的状态与奖励,实现自主学习导航,提高机器人在未知环境中的自主学习能力。
1.具有自主学习能力的在线序列极限学习机方法,其特征在于,系统的整体认知模型以在线序列极限学习机为基础,模拟人脑认知发育机制,与Q学习算法结合并设计了一个九元数组表示:Q‑OSELM=其中各个部分所表示的内容如下:(1)S={si|i=0,1,2,…,N}表示外部获得的有限的状态集合,si表示第i个状态,i为外部动机的个数;(2)A={aj|j=0,1,2,…,N}表示有限的外部智能体动作集合,aj表示第j个动作,j表示外部动作个数;(3)R={r(st,at)}表示系统在t时刻在外部状态为st时所表现出来的外部动作at后使状态转移到st+1后的奖赏信号;(4)Q={q(st,at)}表示系统在t时刻在外部状态为st时所表现出来的外部智能体动作at后使状态转移到st+1后的值函数;(5)fL:s(t)×a(t)→s(t+1)为状态转移方程,即t+1时刻的外部状态s(t+1)总是由t时刻的外部状态s(t)和外部智能体动作a(t)共同决定;(6)表示在线序列极限学习机网络系统隐含层输出集合,为第l个新训练样本数据,l表示新训练样本数据个数;(7)Y:为中间参数转移方程,在k+1时刻的中间参数总是由k时刻的中间参数与k+1时刻的在线序列极限学习机网络系统隐含层输出共同决定;(8)表示在线序列极限学习机网络整体的输出参数集合,为经过第l个新样本训练数据训练后预期得到的输出参数,l表示输出参数的个数;(9)θ:为在线序列极限学习机网络输出权值转移方程,在k+1时刻的输出权值参数总是由k时刻的输出权值参数k+1时刻的中间参数与极限学习机网络系统隐含层输出同时决定。
本文链接:http://www.vipzhuanli.com/tech/sell/s_2309616.html,转载请声明来源钻瓜专利网。