[1]毕志臻,杨德刚,冯骥.面向超大规模数据的自适应谱聚类算法[J].智能系统学报,2023,18(2):251-259.[doi:10.11992/tis.202110038]
BI Zhizhen,YANG Degang,FENG Ji.Self-adaptive spectral clustering algorithm for ultra-large-scale data[J].CAAI Transactions on Intelligent Systems,2023,18(2):251-259.[doi:10.11992/tis.202110038]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
18
期数:
2023年第2期
页码:
251-259
栏目:
学术论文—机器学习
出版日期:
2023-05-05
- Title:
-
Self-adaptive spectral clustering algorithm for ultra-large-scale data
- 作者:
-
毕志臻1, 杨德刚1,2, 冯骥1,2
-
1. 重庆师范大学 计算机与信息科学学院,重庆 401331;
2. 重庆师范大学 教育大数据智能感知与应用重庆市工程研究中心,重庆 401331
- Author(s):
-
BI Zhizhen1, YANG Degang1,2, FENG Ji1,2
-
1. College of Computer and Information Science, Chongqing Normal University, Chongqing 401331, China;
2. Chongqing Engineering Research Center of Educational Big Data Intelligent Perception and Application, Chongqing Normal University, Chongqing 401331, China
-
- 关键词:
-
数据聚类; 超大规模; 近似自然近邻; 谱聚类; 自然邻居; 二部图; 自适应; 无参数
- Keywords:
-
data clustering; ultra-scalable; approximate natural neighbor; spectral clustering; natural neighbor; bipartite graph; adaptive; no parameter
- 分类号:
-
TP311
- DOI:
-
10.11992/tis.202110038
- 摘要:
-
针对超大规模数据聚类过程中人为设定邻域参数及计算量庞大等问题,提出了一种基于近似自然近邻的自适应超大规模谱聚类算法(approximate natural nearest neighbor based self-adaptive ultra-scalable spectral clustering algorithm, AN3-SUSC)。该算法首先通过混合代表选取缩小数据规模,在此基础上利用近似自然近邻自适应地确定局部邻域参数并构建相似矩阵,最后运用二部图进行迁移分割将数据空间映射到原超大规模数据空间中并完成谱聚类分析。超大规模数据集实验结果表明,该算法对超大规模数据集聚类效果有所提升,并且降低计算规模同时具有较高的鲁棒性和较强的自适应性。
- Abstract:
-
An approximate natural neighbor-based self-adaptive ultra-scalable spectral clustering algorithm (AN3-SUSC) is proposed to address the problems of artificially set neighborhood parameters and huge calculation amounts in the process of super-large-scale data clustering. First, the data size is reduced by the algorithm through mixed random selection. Then, approximate natural neighbors are used to determine local neighborhood parameters adaptively, and a similarity matrix is constructed. Finally, the bipartite graph is utilized for migration and segmentation to map the data space to the original ultra-large-scale data space, thereby completing the spectral clustering analysis. Experimental results on super-large-scale data sets show that the algorithm improves the clustering effect of super-large-scale data sets and reduces the computational scale while having high robustness and strong adaptability.
备注/Memo
收稿日期:2021-10-31。
基金项目:教育部人文社会科学研究项目(18XJC880002, 20YJAZH084);重庆市教委科学技术研究项目(KJQN201800539);重庆市研究生教育教学改革研究项目(yjg223068)
作者简介:毕志臻,硕士研究生,主要研究方向为数据挖掘;杨德刚,教授,博士,主要研究方向为智能算法、神经网络、复杂网络。主持及参与国家自然科学基金、省部级项目等20余项。发表学术论文50余篇;冯骥,副教授,博士,主要研究方向为数据挖掘、人工智能。主持及参与国家自然科学基金、省部级项目等10余项。发表学术论文10余篇
通讯作者:冯骥. E-mail:jifeng@cqnu.edu.cn
更新日期/Last Update:
1900-01-01