[1]胡小生,温菊屏,钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报编辑部,2016,11(2):257-263.[doi:10.11992/tis.201507015]
HU Xiaosheng,WEN Juping,ZHONG Yong.Imbalanced data ensemble classification using dynamic balance sampling[J].CAAI Transactions on Intelligent Systems,2016,11(2):257-263.[doi:10.11992/tis.201507015]
点击复制
《智能系统学报》编辑部[ISSN 1673-4785/CN 23-1538/TP] 卷:
11
期数:
2016年第2期
页码:
257-263
栏目:
学术论文—机器学习
出版日期:
2016-04-25
- Title:
-
Imbalanced data ensemble classification using dynamic balance sampling
- 作者:
-
胡小生, 温菊屏, 钟勇
-
佛山科学技术学院 电子与信息工程学院, 广东 佛山 528000
- Author(s):
-
HU Xiaosheng, WEN Juping, ZHONG Yong
-
College of Electronic and Information Engineering, Foshan University, Foshan 528000, China
-
- 关键词:
-
分类; 不平衡数据; 重采样; 集成学习; 随机森林
- Keywords:
-
data mining; imbalanced data; re-sampling; ensemble; random forest
- 分类号:
-
TP181
- DOI:
-
10.11992/tis.201507015
- 摘要:
-
传统分类算法假定平衡的类分布或相同的误分类代价,处理不平衡数据集时,少数类识别精度过低。提出一种动态平衡数据采样与Boosting技术相结合的不平衡数据集成分类算法。在每次迭代初始,综合使用随机欠采样和SMOTE过采样获得平衡规模的训练数据,各类别样本数据比例保持随机性以体现训练数据的差异性,为子分类器提供更好的训练平台;子分类器形成后,利用加权投票得到最终强分类器。实验结果表明,该方法具有处理类别不平衡数据分类问题的优势。
- Abstract:
-
Traditional classification algorithms assume balanced class distribution or equal misclassification costs, which result in poor predictive accuracy of minority classes when handling imbalanced data. A novel imbalanced data classification method that combines dynamic balance sampling with ensemble boosting classifiers is proposed. At the beginning of each iteration, each member of the dynamic balance ensemble is trained with under-sampled data from the original training set and is augmented by artificial instances obtained using SMOTE . The distribution proportion of each class sample is randomly chosen to reflect the diversity of the training data and to provide a better training platform for the ensemble sub-classifier. Once the sub-classifiers are trained, a strong classifier is obtained using a weighting vote. Experimental results show that the proposed method provides better classification performance than other approaches.
备注/Memo
收稿日期:2015-7-9;改回日期:。
基金项目:广东省自然科学基金项目(2015A030313638);佛山科学技术学院校级科研项目;
作者简介:胡小生,男,1978年生,讲师/高级工程师,主要研究方向为机器学习、数据挖掘、人工智能。主持广东省教育厅育苗工程项目1项,参与省级、市厅级科研项目6项,发表学术论文12篇,其中被EI、ISTP检索4篇;温菊屏,女,1979年生,讲师,主要研究方向为虚拟现实、数据挖掘。主持广东省教育厅科研项目1项,参与省级、厅级科研和教改项目4项,发表学术论文9篇;钟勇,男,1970年生,教授,博士,主要研究方向为访问控制、隐私保护、信息检索、云计算。主持和参与国家自然科学基金、国家星火科技计划、省自然科学基金等国家级、省级科研项目10余项,发表学术论文30多篇,其中被SCI、EI检索10篇。
通讯作者:胡小生.E-mail:feihu@fosu.edu.cn.
更新日期/Last Update:
1900-01-01