[1]曹卫华,徐凌云,吴敏,等.模糊Q学习的足球机器人双层协作模型[J].智能系统学报,2008,3(3):234-238.
CAO Wei-hua,XU Ling-yun,WU Min.A double-layer decision-making model based on fuzzy Q-learning for robot soccer[J].CAAI Transactions on Intelligent Systems,2008,3(3):234-238.
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
3
期数:
2008年第3期
页码:
234-238
栏目:
学术论文—智能系统
出版日期:
2008-06-25
- Title:
-
A double-layer decision-making model based on fuzzy Q-learning for robot soccer
- 文章编号:
-
1673-4785(2008)03-0234-05
- 作者:
-
曹卫华; 徐凌云; 吴敏;
-
中南大学信息科学与工程学院; 湖南长沙;
- Author(s):
-
CAO Wei-hua; XU Ling-yun; WU Min
-
School of Information Science and Engineering; Central South University; Changsha 410083; China
-
- 关键词:
-
足球机器人; 双层决策模型; 基于行为的控制系统; Q学习
- Keywords:
-
robot soccer; double-layer decision-making model; behavior-based control system; Q-learning
- 分类号:
-
TP18
- 文献标志码:
-
A
- 摘要:
-
针对传统的足球机器人3层决策模型存在决策不连贯的问题和缺乏适应性与学习能力的缺点,提出了一种基于模糊Q学习的足球机器人双层协作模型.该模型使协调决策和机器人运动成为2个功能独立的层次,使群体意图到个体行为的过度变为一个直接的过程,并在协调层通过采用Q学习算法在线学习不同状态下的最优策略,增强了决策系统的适应性和学习能力.在Q学习中通过把状态繁多的系统状态映射为为数不多的模糊状态,大大减少了状态空间的大小,避免了传统Q学习在状态空间和动作空间较大的情况下收敛速度慢,甚至不能收敛的缺点,提高了Q学习算法的收敛速度.最后,通过在足球机器人SimuroSot仿真比赛平台上进行实验,验证了双层协作模型的有效性.
- Abstract:
-
With the conventional trip le2layer decision2making model of soccer robots, decisions are sometimes in2 consistent, leading to weaknesses in adap tability and self2learning ability. A double2layer cooperation model for a robot soccer system based on fuzzyQ2Learning is p resented to solve these issues. Thismodel divides cooperative de2 cisions and robotmovement into two layers with their own independent functions, so that the transition from group strategy to individual behavior becomes a direct p rocess. To enhance the adap tability and self2learning capabilities of the decision2making system, the Q2learning algorithm was used in the cooperation layer to learn the op timal strat2 egy for various conditions. To speed up the convergence ofQ2learning and decrease the size of the state space, the numerous system states were mapped to seven fuzzy states in Q2learning. This avoids p roblems with Q2learning’s slow converging rate when the size of the state space is large. Thismodelwas verified on the SimuroSot Robot Soc2 cer Game p latform.
备注/Memo
收稿日期:2007-11-15
基金项目:湖南省自然科学基金资助项目(06JJ50144)。
作者简介:曹卫华,男,1972年生,副教授,博士,主要研究方向为机器人与智能系统技术和过程控制,1996-1997年赴日本金泽大学留学一年,获省部级科技进步二等奖2项,三等奖2项;徐凌云,男,1982年生,硕士研究生,主要研究方向为足球机器人系统与多智能技术;吴敏,男,1963年生,博士生导师,主要研究方向为过程控制,鲁棒控制和智能系统,1989-1990年在日本东北大学进修,1996-1999年赴日本东京工业大学从事国际合作研究,2001-2002年得到英国皇家学会资助,问英国诺丁汉大学访问教授,1999年与中野道雄教授和佘锦华博士一起获国际自动化控制联合会(IFAC)控制工程实践优秀论文奖。
通讯作者:吴敏,E-mail:min@csu.edu.cn
更新日期/Last Update:
2009-05-14