[1]李娜,徐森,徐秀芳,等.一种三层加权文本聚类集成方法[J].智能系统学报,2024,19(4):807-816.[doi:10.11992/tis.202303029]
LI Na,XU Sen,XU Xiufang,et al.A three-level weighted approach for text clustering ensemble[J].CAAI Transactions on Intelligent Systems,2024,19(4):807-816.[doi:10.11992/tis.202303029]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
19
期数:
2024年第4期
页码:
807-816
栏目:
学术论文—机器学习
出版日期:
2024-07-05
- Title:
-
A three-level weighted approach for text clustering ensemble
- 作者:
-
李娜1,2, 徐森1, 徐秀芳1, 许贺洋1, 郭乃瑄1,2, 刘轩绮1, 周天3
-
1. 盐城工学院 信息工程学院, 江苏 盐城 224051;
2. 东南大学 计算机网络和信息集成教育部重点实验室, 江苏 南京 211189;
3. 哈尔滨工程大学 水声工程学院, 黑龙江 哈尔滨 150001
- Author(s):
-
LI Na1,2, XU Sen1, XU Xiufang1, XU Heyang1, GUO Naixuan1,2, LIU Xuanqi1, ZHOU Tian3
-
1. School of Information Engineering, Yancheng Institute of Technology, Yancheng 224051, China;
2. Key Laboratory of Computer Network and Information Integration, Southeast University, Nanjing 211189, China;
3. School of Underwater Acoustic Engineering, Harbin Engineering University, Harbin 150001, China
-
- 关键词:
-
文本聚类; 聚类集成; 加权聚类集成; 三层加权; 加权聚类; 多层加权; 聚类分析; 无监督学习
- Keywords:
-
text clustering; clustering ensemble; weighted clustering ensemble; three-level weighting; weighted clustering; multi-level weighting; cluster analysis; unsupervised learning
- 分类号:
-
TP181;TP301
- DOI:
-
10.11992/tis.202303029
- 摘要:
-
为了提高聚类集成效果,本文设计了一种对点、簇、划分进行加权的统一框架,提出一种三层加权文本聚类集成方法。首先根据基聚类生成超图邻接矩阵,然后依次对点、簇、划分进行加权获得加权邻接矩阵,最后用层次凝聚聚类算法获得最终结果。在多个真实文本数据集上进行实验,结果表明,与未加权及其他层面加权相比,三层加权方法可以获得更好的聚类效果,三层加权相较于未加权的平均提升幅度为12.02%;与近年来的其他8种加权方法相比,该方法在所有数据集上的平均排名位列第一,验证了本文方法的有效性。
- Abstract:
-
To improve the clustering ensemble effect, this paper designs a unified framework for weighted points, clusters and partitions, and proposes a three-level weighted approach for text clustering ensemble. Firstly, the hypergraph adjacency matrix is generated according to the base clustering, and then the weighted adjacency matrix is obtained by successively weighting the points, clusters and partitions. Finally, the final result is obtained by the hierarchical condensation clustering algorithm. Experiments were carried out on multiple real text datasets. The results show that compared with the unweighted results and other level weighted results, this approach has better clustering effect. The average increase of three-layer weighted compared with that unweighted is 12.02%. Compared with the other 8 weighted methods in recent years, the average ranking of this algorithm is the first in all datasets, which verifies the effectiveness of the proposed method.
备注/Memo
收稿日期:2023-03-20。
基金项目:国家自然科学基金项目(62076215);江苏省高等学校自然科学研究面上项目(21KJD520006);未来网络科研基金项目(FNSRFP-2021-YB-46);盐城工学院研究生培养创新工程项目(SJCX21_XZ018);教育部产学研合作协同育人计划项目(202102594034);中央高校基本科研业务费专项(K93-9-2022-03);江苏高校“青蓝工程”项目.
作者简介:李娜,女,硕士研究生,主要研究方向为文本挖掘、机器学习和模式识别。E-mail:lina980104@163.com;徐森,教授,博士,主要研究方向为机器学习、模式识别和文本挖掘。主持完成国家自然科学基金青年基金项目、江苏省教育厅国际科技合作聘请外国专家重点项目、江苏省高校自然科学面上项目各1项,主持江苏省政策引导类计划(产学研合作)–前瞻性联合研究项目1项,作为主要成员参与完成国家自然科学基金5项,省部级项目5项。发表学术论文40余篇,申请中国发明专利20余项,获得授权8项。国家自然科学基金通讯评审专家库成员,江苏省人工智能学会机器学习专委会常务委员,江苏省计算机学会大数据专家委员会委员,盐城市计算机学会理事,盐城市人工智能学会监事长,美国计算机协会会员,中国计算机学会会员,江苏省计算机学会会员。E-mail:xusen@ycit.cn;徐秀芳,高级实验师,主要研究方向为数据挖掘和智能信息处理。以第一发明人申请国家专利4项,取得省级以上科研成果3项,市级科研成果2项,先后主持或参与完成8项省市级纵横向科研项目。主编或参与编写教科书4部。E-mail:xxf@ycit.cn
通讯作者:徐森. E-mail:xusen@ycit.cn
更新日期/Last Update:
1900-01-01