[1]王学宁,陈 伟,张 锰,等.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24.
WANG Xue-ning,CHEN Wei,ZHANG Men,et al.A survey of direct policy search methods in reinforcement learning[J].CAAI Transactions on Intelligent Systems,2007,2(1):16-24.
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
2
期数:
2007年第1期
页码:
16-24
栏目:
综述
出版日期:
2007-02-25
- Title:
-
A survey of direct policy search methods in reinforcement learning
- 文章编号:
-
1673-4785(2007)01-0016-09
- 作者:
-
王学宁1, 陈 伟1, 张 锰2, 徐 昕1,? 贺汉根1
-
1.国防科技大学机电工程与自动化学院,湖南长沙410073;2.北京清河大楼子9,北京100085
- Author(s):
-
WANG Xue-ning1,CHEN Wei1,ZHANG Men2,XU Xin1,HE Han-gen1
-
1. School of Electromechanical Engineering and Automation, National University o f Defense Technology, Changsha 410073, China;
2. Qinghe Building Zi 9, Bei jing 10008 5, China
-
- 关键词:
-
增强学习; 策略搜索; 策略梯度
- Keywords:
-
reinforcement learning; policy search; policy Gradien t
- 分类号:
-
TP242
- 文献标志码:
-
A
- 摘要:
-
对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框架的指导,对一些现有的策略梯度算法进行了推广,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法,对于非策略梯度搜索算法的最新进展进行了介绍,对进一步研究工作的方向进行了展望.
- Abstract:
-
The direct policy search methods in reinforcement learn ing are described, and the theoretic framework of policy gradient meth ods is presented. According to this framework, some current policy gradient algo rithms are generalized. The new methods of speeding up the policy gradient al gorithms are discussed. The new nonpolicy gradient search methods are also described. Finally, some future directions of research work are also given.
备注/Memo
收稿日期:2006-07-07.
基金项目:国家自然科学基金资助项目(60234030, 60303012)
作者简介:
王学宁,男,1976年生,博士研究生,主要研究方向为增强学习、智能控制等,参加国家自然科学基金重点项目一项、青年基金项目一项,863项目一项,已发表论文10余篇,其中被S CI收录3篇,Ei收录5篇.
?E-mail:wxn9576@yahoo.com.cn
陈 伟,男,1976年生,博士研究生,主要研究方向为机器人定位与见图、机器学习等,参加国家自然科学基金重点项目一项.
张 锰,男,1972年生,2001年毕业于国防科技大学计算机学院,获硕士学位.主要研究方向为指挥自动化.曾获全军科技进步二等奖2项,全军科技进步三等奖3项,并在国内外科技期刊上发表论文12篇,其中SCI检索1篇,EI检索3篇.
更新日期/Last Update:
2009-05-05