[1]孙林,梁娜,徐久成.基于邻域互信息与K-means特征聚类的特征选择[J].智能系统学报,2024,19(4):983-996.[doi:10.11992/tis.202208012]
SUN Lin,LIANG Na,XU Jiucheng.Feature selection using neighborhood mutual information and feature clustering with K-means[J].CAAI Transactions on Intelligent Systems,2024,19(4):983-996.[doi:10.11992/tis.202208012]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
19
期数:
2024年第4期
页码:
983-996
栏目:
学术论文—知识工程
出版日期:
2024-07-05
- Title:
-
Feature selection using neighborhood mutual information and feature clustering with K-means
- 作者:
-
孙林1, 梁娜2, 徐久成2
-
1. 天津科技大学 人工智能学院, 天津 300457;
2. 河南师范大学 计算机与信息工程学院, 河南 新乡 453007
- Author(s):
-
SUN Lin1, LIANG Na2, XU Jiucheng2
-
1. College of Artificial Intelligence, Tianjin University of Science and Technology, Tianjin 300457, China;
2. College of Computer and Information Engineering, Henan Normal University, Xinxiang 453007, China
-
- 关键词:
-
特征选择; 邻域互信息; K-means; 特征聚类; 自适应K近邻; 特征权重; 加权K近邻密度
- Keywords:
-
feature selection; neighborhood mutual information; K-means; feature clustering; adaptive K-nearest neighbor; feature weight; weighted k-nearest neighbor density
- 分类号:
-
TP181
- DOI:
-
10.11992/tis.202208012
- 摘要:
-
针对多数邻域系统通过人工调试很难搜索到最佳邻域半径,以及传统的K-means聚类需要随机选取簇中心和指定簇的数目等问题,提出了一种基于邻域互信息与K-means特征聚类的特征选择方法。首先,将样本在各特征下与其他样本距离的平均值作为自适应邻域半径,确定样本的邻域集,并由此构建自适应邻域熵、邻域互信息、归一化邻域互信息等度量,反映特征之间的相关性;然后,基于归一化邻域互信息构建自适应K近邻集合,利用Pearson相关系数表示特征的权重定义加权K近邻密度,实现自动选取K-means算法的簇中心,进而完成K-means特征聚类;最后,给出加权平均冗余度,选出每个特征簇中加权平均冗余度最大的特征构成最优特征子集。实验结果表明所提算法不仅可以有效提升特征选择的分类结果而且可以获得更好的聚类效果。
备注/Memo
收稿日期:2022-08-12。
基金项目:国家自然科学基金项目(62076089, 61772176, 61976082);河南省科技攻关计划项目(212102210136).
作者简介:孙林,教授,博士生导师,博士,计算机学会会员,主要研究方向为粒计算、大数据挖掘和机器学习。发表学术论文60余篇。E-mail:sunlin@tust.edu.cn;梁娜,硕士研究生,主要研究方向为数据挖掘。E-mail:ms_liangna@126.com;徐久成,教授,博士生导师,博士,计算机学会高级会员,主要研究方向为粒计算、大数据挖掘和智能信息处理。E-mail:xjc@htu.edu.cn
通讯作者:孙林. E-mail:sunlin@tust.edu.cn
更新日期/Last Update:
1900-01-01