[1]赵玉新,杜登辉,成小会,等.基于强化学习的海洋移动观测网络观测路径规划方法[J].智能系统学报,2022,17(1):192-200.[doi:10.11992/tis.202106004]
ZHAO Yuxin,DU Denghui,CHENG Xiaohui,et al.Path planning for mobile ocean observation network based on reinforcement learning[J].CAAI Transactions on Intelligent Systems,2022,17(1):192-200.[doi:10.11992/tis.202106004]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
17
期数:
2022年第1期
页码:
192-200
栏目:
人工智能院长论坛
出版日期:
2022-01-05
- Title:
-
Path planning for mobile ocean observation network based on reinforcement learning
- 作者:
-
赵玉新1, 杜登辉1, 成小会1, 周迪2, 邓雄1, 刘延龙1
-
1. 哈尔滨工程大学 智能科学与工程学院, 黑龙江 哈尔滨 150001;
2. 中国舰船研究设计中心, 湖北 武汉 430064
- Author(s):
-
ZHAO Yuxin1, DU Denghui1, CHENG Xiaohui1, ZHOU Di2, DENG Xiong1, LIU Yanlong1
-
1. College of Intelligent Systems Science and Engineering, Harbin Engineering University, Harbin 150001 , China;
2. China Ship Development and Design Center, Wuhan 430064, China
-
- 关键词:
-
深度强化学习; 海洋环境观测; 路径规划; 无人测量船; Q学习; 多智能体; 深度确定性策略梯度; 高斯排序
- Keywords:
-
deep reinforcement learning; marine environmental observation; path planning; USV; Q learning; multi-agent; DDPG; RankGauss
- 分类号:
-
TP242.6
- DOI:
-
10.11992/tis.202106004
- 摘要:
-
合理有效地对移动海洋环境观测平台进行规划,有利于海洋环境观测网络的设计和海洋环境信息的采集。针对庞大的海洋环境,在有限的观测资源下,使用深度强化学习算法对海洋环境观测网络进行规划。针对强化学习算法求解路径规划问题中的离散和连续动作设计问题,分别使用DQN和DDPG两种算法对该问题进行单平台和多平台实验,实验结果表明,使用离散动作的DQN算法的奖赏函数优于使用连续动作的DDPG算法。进一步对两种算法求解的移动海洋观测平台的采样路径结果进行分析,结果显示,使用离散动作的DQN算法的采样结果也更好。实验结果证明,使用离散动作的DQN算法可以最大化对海洋环境中有效资料信息采集,说明了该方法的有效性和可行性。
- Abstract:
-
Reasonable and effective planning method of mobile vehicles for marine environmental observation is beneficial to the design of marine environmental observation network and the collection efficiency of marine environmental information. In view of the vast marine environment and limited observation resources, the deep reinforcement learning algorithm is used to plan the marine environmental observation network. In order to solve the problems in the design of discrete and continuous motion during the path planning, two algorithms, DQN and DDPG, are designed to solve the problem of single platform and multi-platform experiments. The experimental results show that the reward curve of DQN algorithm using discrete motion is better than DDPG algorithm using continuous motion. This paper further analyzes the sampling path results of the mobile vehicles for marine environmental observation, and the results show that the sampling result of DQN algorithm with discrete action is better. The experimental results show that the DQN algorithm using discrete motion can maximize the effective data information collection, which demonstrates effectiveness and feasibility of the method.
备注/Memo
收稿日期:2021-06-02。
基金项目:国家自然科学基金项目(41676088);中央高校基本科研业务费项目(3072021CFJ0401).
作者简介:赵玉新,教授,博士生导师,工业和信息化部高技术船舶通信导航与智能系统专业组秘书长、中国航海学会理事、中国运筹学会决策科学分会常务理事 、IET(英国工程技术学会)Fellow、IEEE高级会员,主要研究方向为水下导航技术及应用、业务化海洋学、智能航海技术。主持国防 973 课题、国家重大专项课题、国家自然科学基金等项目。发表学术论文 100 余篇,出版学术著作 4 部;杜登辉,硕士研究生,主要研究方向为强化学习算法、海洋观测网;刘延龙,博士研究生,主要研究方向为智能算法、业务化海洋学、海洋观测网
通讯作者:刘延龙. E-mail:yanlong_liu@hrbeu.edu.cn
更新日期/Last Update:
1900-01-01