[1]曹卫华,徐凌云,吴敏,等.模糊Q学习的足球机器人双层协作模型[J].智能系统学报,2008,3(03):234-238.
 CAO Wei-hua,XU Ling-yun,WU Min.A double-layer decision-making model based on fuzzy Q-learning for robot soccer[J].CAAI Transactions on Intelligent Systems,2008,3(03):234-238.
点击复制

模糊Q学习的足球机器人双层协作模型(/HTML)
分享到:

《智能系统学报》[ISSN:1673-4785/CN:23-1538/TP]

卷:
第3卷
期数:
2008年03期
页码:
234-238
栏目:
学术论文—智能系统
出版日期:
2008-06-25

文章信息/Info

Title:
A double-layer decision-making model based on fuzzy Q-learning for robot soccer
文章编号:
1673-4785(2008)03-0234-05
作者:
曹卫华; 徐凌云; 吴敏;
中南大学信息科学与工程学院; 湖南长沙;
Author(s):
CAO Wei-hua; XU Ling-yun; WU Min
School of Information Science and Engineering; Central South University; Changsha 410083; China
关键词:
足球机器人 双层决策模型 基于行为的控制系统 Q学习
Keywords:
robot soccer double-layer decision-making model behavior-based control system Q-learning
分类号:
TP18
文献标志码:
A
摘要:
针对传统的足球机器人3层决策模型存在决策不连贯的问题和缺乏适应性与学习能力的缺点,提出了一种基于模糊Q学习的足球机器人双层协作模型.该模型使协调决策和机器人运动成为2个功能独立的层次,使群体意图到个体行为的过度变为一个直接的过程,并在协调层通过采用Q学习算法在线学习不同状态下的最优策略,增强了决策系统的适应性和学习能力.在Q学习中通过把状态繁多的系统状态映射为为数不多的模糊状态,大大减少了状态空间的大小,避免了传统Q学习在状态空间和动作空间较大的情况下收敛速度慢,甚至不能收敛的缺点,提高了Q学习算法的收敛速度.最后,通过在足球机器人SimuroSot仿真比赛平台上进行实验,验证了双层协作模型的有效性.
Abstract:
With the conventional trip le2layer decision2making model of soccer robots, decisions are sometimes in2 consistent, leading to weaknesses in adap tability and self2learning ability. A double2layer cooperation model for a robot soccer system based on fuzzyQ2Learning is p resented to solve these issues. Thismodel divides cooperative de2 cisions and robotmovement into two layers with their own independent functions, so that the transition from group strategy to individual behavior becomes a direct p rocess. To enhance the adap tability and self2learning capabilities of the decision2making system, the Q2learning algorithm was used in the cooperation layer to learn the op timal strat2 egy for various conditions. To speed up the convergence ofQ2learning and decrease the size of the state space, the numerous system states were mapped to seven fuzzy states in Q2learning. This avoids p roblems with Q2learning’s slow converging rate when the size of the state space is large. Thismodelwas verified on the SimuroSot Robot Soc2 cer Game p latform.

参考文献/References:

[1] 赵逢达,孔令富,李贤善. 基于分层结构模型的机器人足球决策系统设计[J]哈尔滨工业大学学报, 2005,(07) .
 [2] 高阳,陈世福,陆鑫. 强化学习研究综述[J]自动化学报, 2004,(01) .
[3] 刘云江,韩光胜. 基于多智能体规划的机器人足球决策模型[J]哈尔滨工业大学学报, 2004,(07) .
[4] 郭锐,吴敏,彭军,彭姣,曹卫华. 一种新的多智能体Q学习算法[J]自动化学报, 2007,(04) .
[5] 陆永忠,柯文德. 足球机器人决策系统的设计与实现[J]计算机仿真, 2007,(09) .
 [6] ChristopherJ.C.H.Watkins,Peter Dayan. Technical Note: Q-Learning[J] Machine Learning, 1992,8, (3-4) :279~292.
[7] JohnN.Tsitsiklis. Asynchronous stochastic approximation and Q-learning[J] Machine Learning, 1994,16, (3) :185~202.
 [8] ASADA M,K ITANO H. The Robocup challenge .Robotics andAutonomous System. 1999,291, 29(1) :3-12 .
[9] Tsitsiklis,John N. Asynchronous stochastic approxi-mation and Q-learning[J] .Machine Learning, 1994,16, 16 (3) :185-202 .

相似文献/References:

[1]夏琳琳,苗贵娟,初妍,等.基于自适应神经模糊系统的足球机器人射门点的确定[J].智能系统学报,2013,8(02):143.[doi:10.3969/j.issn.1673-4785.201203015]
 XIA Linlin,MIAO Guijuan,CHU Yan,et al.Determination of shooting point for soccer robot based upon adaptive neuro-fuzzy in ference system[J].CAAI Transactions on Intelligent Systems,2013,8(03):143.[doi:10.3969/j.issn.1673-4785.201203015]

备注/Memo

备注/Memo:
收稿日期:2007-11-15
基金项目:湖南省自然科学基金资助项目(06JJ50144);; 国家杰出青年科学基金资助项目(60425310)
作者简介:
曹卫华,男,1972年生,副教授,博士,主要研究方向为机器人与智能系统技术和过程控制,1996-1997年赴日本金泽大学留学一年,获省部级科技进步二等奖2项,三等奖2项
徐凌云,男,1982年生,硕士研究生,主要研究方向为足球机器人系统与多智能技术
吴敏,男,1963年生,长江学者特聘教授,博士生导师,博士生导师,主要研究方向为过程控制,鲁棒控制和智能系统,1989-1990年在日本东北大学进修,1996-1999年赴日本东京工业大学从事国际合作研究,2001-2002年得到英国皇家学会资助,问英国诺丁汉大学访问教授,1999年与中野道雄教授和佘锦华博士一起获国际自动化控制联合会(IFAC)控制工程实践优秀论文奖
通讯作者:吴敏,E-mail:min@csu.edu.cn
更新日期/Last Update: 2009-05-14