[1]普事业,刘三阳,白艺光.网络拓扑特征的不平衡数据分类[J].智能系统学报,2019,14(5):889-896.[doi:10.11992/tis.201812014]
PU Shiye,LIU Sanyang,BAI Yiguang.Imbalanced data classification of network topology characteristics[J].CAAI Transactions on Intelligent Systems,2019,14(5):889-896.[doi:10.11992/tis.201812014]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
14
期数:
2019年第5期
页码:
889-896
栏目:
学术论文—机器学习
出版日期:
2019-09-05
- Title:
-
Imbalanced data classification of network topology characteristics
- 作者:
-
普事业, 刘三阳, 白艺光
-
西安电子科技大学 数学与统计学院, 陕西 西安 710126
- Author(s):
-
PU Shiye, LIU Sanyang, BAI Yiguang
-
School of Mathematics and Statistics, Xidian University, Xi’an 710126, China
-
- 关键词:
-
不平衡数据; 相似度; 网络结构; 准确率; 拓扑; 物理特征
- Keywords:
-
imbalanced data; similarity; network structure; accuracy rate; topology; physical feature
- 分类号:
-
TP391.9
- DOI:
-
10.11992/tis.201812014
- 摘要:
-
现实中的数据集普遍具有非均衡性。针对不平衡分类问题,建立数据集网络结构来充分挖掘隐藏在样本点位置信息外的拓扑特征,分析网络节点的连接特性并赋予节点不同的效率。计算待测节点与每个子网络的相似性测度,依据新型的概率模型,进一步推算出该节点与各子网络的整体性测度。构建了一种基于网络拓扑特征的不平衡数据分类方法,算法中引入不平衡因子c用以减小由正负类样本数量差异所带来的影响。实验结果表明,该算法能有效提高分类精度,特别是对拓扑特征明显的数据集,在分类性能和适应能力上相比传统分类方法都得到进一步提升。
- Abstract:
-
This paper aims to solve the imbalanced data classification problem, which has been proven to be common in real applications. The dataset network structure is established to fully mine the topological features hidden outside the position information of sample points, analyze the connection characteristics of network nodes, and give these nodes different efficiencies. The similarity measure between the node to be tested and each sub-network is calculated, and the integrity measure between the node and each sub-network is further calculated according to the new probability model. A classification method of imbalanced data based on network topology features is constructed. An imbalanced factor c is introduced into the algorithm to reduce the influence caused by the difference in the number of positive and negative samples. The experimental results show that the algorithm can effectively improve the classification accuracy, especially for datasets with significant topological features. The classification performance and adaptability are further improved compared with the traditional classification method.
备注/Memo
收稿日期:2018-12-12。
基金项目:国家自然科学基金项目(61877046);陕西省自然科学基金项目(2017JM1001).
作者简介:普事业,男,1993年生,硕士研究生,主要研究方向为数据挖掘、复杂网络;刘三阳,男,1959年生,教授,博士生导师,主要研究方向为最优化方法及其应用研究、系统建模、信息网络。先后主持国家自然科学基金项目5项、教育部项目10多项,获国家级教学成果奖3项。发表学术论文500余篇,包括全球热点论文和ESI高引论文及2015年中国百篇最具影响力学术论文,出版教材10余部,其中2部获国家级奖项;白艺光,男,1993年生,博士研究生,主要研究方向为复杂网络功能及鲁棒性、大规模并行优化在网络中的应用。发表学术论文7篇。
通讯作者:普事业.E-mail:psy2361@126.com
更新日期/Last Update:
1900-01-01