[1]郭宪,方勇纯.仿生机器人运动步态控制:强化学习方法综述[J].智能系统学报,2020,15(1):152-159.[doi:10.11992/tis.201907052]
GUO Xian,FANG Yongchun.Locomotion gait control for bionic robots: a review of reinforcement learning methods[J].CAAI Transactions on Intelligent Systems,2020,15(1):152-159.[doi:10.11992/tis.201907052]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
15
期数:
2020年第1期
页码:
152-159
栏目:
人工智能院长论坛
出版日期:
2020-01-05
- Title:
-
Locomotion gait control for bionic robots: a review of reinforcement learning methods
- 作者:
-
郭宪, 方勇纯
-
南开大学 人工智能学院, 天津 300350
- Author(s):
-
GUO Xian, FANG Yongchun
-
College of Artificial Intelligence, Nankai University, Tianjin 300350, China
-
- 关键词:
-
仿生机器人; 运动步态; 控制方法; 强化学习; 数据驱动; 多关节; 非线性; 欠驱动
- Keywords:
-
bionic robot; locomotion gait; control method; reinforcement learning; data-driven; multi-joint; nonlinear; underactuated
- 分类号:
-
TP18
- DOI:
-
10.11992/tis.201907052
- 摘要:
-
仿生机器人是一类典型的多关节非线性欠驱动系统,其步态控制是一个非常具有挑战性的问题。对于该问题,传统的控制和规划方法需要针对具体的运动任务进行专门设计,需要耗费大量时间和精力,而且所设计出来的控制器往往没有通用性。基于数据驱动的强化学习方法能对不同的任务进行自主学习,且对不同的机器人和运动任务具有良好的通用性。因此,近年来这种基于强化学习的方法在仿生机器人运动步态控制方面获得了不少应用。针对这方面的研究,本文从问题形式化、策略表示方法和策略学习方法3个方面对现有的研究情况进行了分析和总结,总结了强化学习应用于仿生机器人步态控制中尚待解决的问题,并指出了后续的发展方向。
- Abstract:
-
The bionic robot is a typical multi-joint, nonlinear, underactuated system, for which locomotion gait control is of much challenge. For this problem, traditional control and planning methods need to be carefully designed for specific locomotion tasks, which takes a lot of time and efforts, yet lacks generality. On the contrary, data-driven reinforcement learning method can autonomously learn the controller for different locomotion tasks, and it presents the advantage of good generality for different bionic robots and locomotions. Therefore, in recent years, this reinforcement learning-based method has been widely used in the field of bionic robots to construct various locomotion gait controllers. In this paper, the current research status of reinforcement learning-based methods for the locomotion control of bionic robots is comprehensively analyzed, respectively from the following three aspects: formulation of the problem, policy representation, and policy learning. Finally, the problems to be solved in the field are and summarized, and the possible future research directions are provided.
备注/Memo
收稿日期:2019-07-29。
基金项目:国家自然科学基金项目(61603200);天津市自然科学基金青年项目(19JCQNJC03200)
作者简介:郭宪,讲师,博士,主要研究方向为仿生机器人设计与智能运动控制。主持国家自然科学基金项目1项,省部级项目2项;方勇纯,教授,博士生导师,南开大学人工智能学院院长,主要研究方向为机器人视觉控制、欠驱动吊运系统控制、仿生机器人运动控制和微纳米操作。主持国家重点研发计划项目、国家基金重点项目、“十二五”国家技术支撑计划课题、国家基金仪器专项等项目。获吴文俊人工智能自然科学奖一等奖、天津市专利奖金奖、天津市自然科学一等奖、高等教育教学成果一等奖等多项奖励,发表学术论文100余篇.
通讯作者:方勇纯.E-mail:fangyc@nankai.edu.cn
更新日期/Last Update:
1900-01-01