[1]曹嵘晖,唐卓,左知微,等.面向机器学习的分布式并行计算关键技术及应用[J].智能系统学报,2021,16(5):919-930.[doi:10.11992/tis.202108010]
CAO Ronghui,TANG Zhuo,ZUO Zhiwei,et al.Key technologies and applications of distributed parallel computing for machine learning[J].CAAI Transactions on Intelligent Systems,2021,16(5):919-930.[doi:10.11992/tis.202108010]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
16
期数:
2021年第5期
页码:
919-930
栏目:
吴文俊人工智能科技进步奖一等奖
出版日期:
2021-09-05
- Title:
-
Key technologies and applications of distributed parallel computing for machine learning
- 作者:
-
曹嵘晖1,2, 唐卓1,2, 左知微1,2, 张学东1,2
-
1. 湖南大学 信息科学与工程学院, 湖南 长沙 410082;
2. 国家超级计算长沙中心, 湖南 长沙 410082
- Author(s):
-
CAO Ronghui1,2, TANG Zhuo1,2, ZUO Zhiwei1,2, ZHANG Xuedong1,2
-
1. College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082, China;
2. National Supercomputer Center in Changsha, Changsha 410082, China
-
- 关键词:
-
机器学习; 分布式计算; 倾斜数据; 任务时空调度; 资源管理; 节能调度; 跨域资源迁移; 并行优化; 图迭代算法; 智能分析系统
- Keywords:
-
machine learning; distributed computing; skew data; task space-time scheduling; resource management; energy-saving scheduling; cross-domain resource migration; parallel optimization; graph iteration algorithm; intelligent analysis system
- 分类号:
-
TP18
- DOI:
-
10.11992/tis.202108010
- 摘要:
-
当前机器学习等算法的计算、迭代过程日趋复杂, 充足的算力是保障人工智能应用落地效果的关键。本文首先提出一种适应倾斜数据的分布式异构环境下的任务时空调度算法,有效提升机器学习模型训练等任务的平均效率;其次,提出分布式异构环境下高效的资源管理系统与节能调度算法,实现分布式异构环境下基于动态预测的跨域计算资源迁移及电压/频率的动态调节,节省了系统的整体能耗;然后构建了适应于机器学习/深度学习算法迭代的分布式异构优化环境,提出了面向机器学习/图迭代算法的分布式并行优化基本方法。最后,本文研发了面向领域应用的智能分析系统,并在制造、交通、教育、医疗等领域推广应用,解决了在高效数据采集、存储、清洗、融合与智能分析等过程中普遍存在的性能瓶颈问题。
- Abstract:
-
At present, the calculation and iteration process of algorithms such as machine learning is becoming more and more complex. Sufficient computational power is the key to ensure the landing effect of artificial intelligence application. In view of this, this paper first puts forward a task space-time scheduling algorithm adapted to the distributed heterogeneous environment of skew data, which effectively improves the average efficiency of tasks such as machine learning model training. Then, the high-efficiency resource management system and energy-saving scheduling algorithm in distributed heterogeneous environment are proposed to realize the dynamic prediction based cross-domain computing resource migration and voltage/frequency dynamic regulation in distributed heterogeneous environment, which saves the overall energy consumption of the system, and then, the distributed heterogeneous optimization environment adapted to the iteration of machine learning/deep learning algorithm is constructed, and the basic method of distributed parallel optimization for machine learning/graph iteration algorithm is proposed. Finally, the intelligent analysis system for field-oriented applications is researched and developed, and popularized in manufacturing, transportation, education, medical and other fields, which solves the performance bottleneck problems that are common in the process of high-efficiency data collection, storage, cleaning, fusion and intelligent analysis.
备注/Memo
收稿日期:2021-08-11。
基金项目:国家重点研发计划项目(2018YFB1701400);国家自然科学基金项目(92055213,61873090,L1924056,62002114);金融及产业数据驱动下的智慧园区云平台研发及产业化项目(XMHT20190205007);广东省重点领域研发计划项目(XMHT20190205007)深圳市科技计划项目(JSGG20180507183023239)
作者简介:曹嵘晖,副研究员,博士后,主要研究方向为分布式计算与云计算、并行处理体系结构。OpenStack 云计算开源社区核心成员,高性能计算应用软件技术教育部工程研究中心核心成员,湖南省高性能数据处理与智能分析创新团队核心成员。获吴文俊人工智能科技进步一等奖(排名第五)。主持国家重点研发子课题项目2项、国家自然科学基金项目1项、湖南省自然科学基金项目1项,参与撰写湖南省信创云标准1项,参与国家重点研发计划项目2 项、国家自然科学基金重点项目1 项、面上项目2 项、湖南省重点研发计划1 项。申请专利16 项、授权7 项,参与撰写专著1部,发表学术论文多篇。唐卓,教授,博士生导师,主要研究方向为分布式计算与云计算。国家超级计算长沙中心总工程师,担任多个SCI期刊的客座编辑,获国家科技进步二等奖(第三)、吴文俊人工智能科技进步一等奖(第一)、中国产学研合作创新成果一等奖(第一)、湖南省技术发明一等奖(第二)。主持科技部国家重点研发计划项目1项、国家自然科学基金重点项目1项、国家自然科学基金面上项目2项、国家自然科学基金应急项目3项、国家自然科学基金青年基金项目1项,广东省经信委项目、产学研合作项目、中国博士后科学基金等10余项。发表学术论文百余篇;左知微,博士研究生,主要研究方向为分布式机器学习。
通讯作者:唐卓.E-mail:ztang@hnu.edu.cn
更新日期/Last Update:
1900-01-01