[1]张钢,谢晓珊,黄英,等.面向大数据流的半监督在线多核学习算法[J].智能系统学报,2014,9(3):355-363.[doi:10.3969/j.issn.1673-4785.201403067]
ZHANG Gang,XIE Xiaoshan,HUANG Ying,et al.An online multi-kernel learning algorithm for big data[J].CAAI Transactions on Intelligent Systems,2014,9(3):355-363.[doi:10.3969/j.issn.1673-4785.201403067]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
9
期数:
2014年第3期
页码:
355-363
栏目:
学术论文—机器学习
出版日期:
2014-06-25
- Title:
-
An online multi-kernel learning algorithm for big data
- 作者:
-
张钢, 谢晓珊, 黄英, 王春茹
-
广东工业大学 自动化学院, 广东 广州 510006
- Author(s):
-
ZHANG Gang, XIE Xiaoshan, HUANG Ying, WANG Chunru
-
School of Automation, Guangdong University of Technology, Guangzhou 510006, China
-
- 关键词:
-
大数据流; 在线多核学习; 流形学习; 数据依赖核; 半监督学习
- Keywords:
-
big data stream; online multi-kernel learning; manifold learning; data-dependent kernel; semi-supervised learning
- 分类号:
-
TP18
- DOI:
-
10.3969/j.issn.1673-4785.201403067
- 摘要:
-
在机器学习中, 核函数的选择对核学习器性能有很大的影响, 而通过核学习的方法可以得到有效的核函数。提出一种面向大数据流的半监督在线核学习算法, 通过当前读取的大数据流片段以在线方式更新当前的核函数。算法通过大数据流的标签对核函数参数进行有监督的调整, 同时以无监督的方式通过流形学习对核函数参数进行修改, 以使得核函数所体现的等距面尽可能沿着数据的某种低维流形分布。算法的创新性在于能同时进行有监督和无监督的核学习, 且不需要对历史数据进行再次扫描, 有效降低了算法的时间复杂度, 适用于在大数据和高速数据流环境下的核函数学习问题, 其对无监督学习的支持有效解决了大数据流中部分标记缺失的问题。在MOA生成的人工数据集以及UCI大数据分析的基准数据集上进行算法有效性的评估, 其结果表明该算法是有效的。
- Abstract:
-
In machine learning, a proper kernel function affects much on the performance of target learners. Commonly an effective kernel function can be obtained through kernel learning. We present a semi-supervised online multiple kernel algorithm for big data stream analysis. The algorithm learns a kernel function through an online update procedure by reading current segments of a big data stream. The algorithm adjusts the parameters of currently learned kernel function in a supervised manner and modifies the kernel through unsupervised manifold learning, so as to make the contour surfaces of the kernel along with some low dimensionality manifold in the data space as far as possible. The novelty is that it performs supervised and unsupervised learning at the same time, and scans the training data only once, which reduces the computational complexity and is suitable for the kernel learning tasks in big datasets and high speed data streams. This algorithm’s support to the unsupervised learning effectively solves the problem of label missing in big data streams. The evaluation results from the synthetic datasets generated by MOA and the benchmark datasets of the big data analysis from the UCI data repository show the effectiveness of the proposed algorithm.
备注/Memo
收稿日期:2014-03-25。
基金项目:国家自然科学基金资助项目(81373883)
作者简介:谢晓珊,女,1990年生,硕士研究生,发表学术论文3篇,主要研究方向为机器学习、数据挖掘、模式识别和生物医学图像处理。
通讯作者:张钢,男,1979年生,讲师,博士研究生,CCF会员。主要研究方向为机器学习、数据挖掘和生物信息学,参与国家自然科学基金项目1项 ,广东省自然科学基金团队项目1项,获得软件著作权2项,专利4项。发表学术论文40余篇,其中被SCI检索3篇,EI检索20余篇,E-mail:ipx@gdut.edu.cn。
更新日期/Last Update:
1900-01-01