[1]石洪波,陈雨文,陈鑫.SMOTE过采样及其改进算法研究综述[J].智能系统学报,2019,14(6):1073-1083.[doi:10.11992/tis.201906052]
SHI Hongbo,CHEN Yuwen,CHEN Xin.Summary of research on SMOTE oversampling and its improved algorithms[J].CAAI Transactions on Intelligent Systems,2019,14(6):1073-1083.[doi:10.11992/tis.201906052]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
14
期数:
2019年第6期
页码:
1073-1083
栏目:
综述
出版日期:
2019-11-05
- Title:
-
Summary of research on SMOTE oversampling and its improved algorithms
- 作者:
-
石洪波, 陈雨文, 陈鑫
-
山西财经大学 信息学院, 山西 太原 030031
- Author(s):
-
SHI Hongbo, CHEN Yuwen, CHEN Xin
-
School of Information, Shanxi University of Finance and Economics, Taiyuan, Shanxi, 030031
-
- 关键词:
-
不平衡数据分类; SMOTE; 算法; k-NN; 过采样; 欠采样; 高维数据; 分类型数据
- Keywords:
-
imbalanced data classification; SMOTE; algorithm; k-NN; oversampling; undersampling; high dimensional data; categorical data
- 分类号:
-
TP391
- DOI:
-
10.11992/tis.201906052
- 摘要:
-
近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和应用提供有价值的借鉴和参考。
- Abstract:
-
In recent years, the problem of imbalanced classification has received considerable attention. The synthetic minority oversampling technique (SMOTE), a popular method for improving the classification performance of imbalanced data, adds generated minority samples to change the distribution of imbalanced data sets. In this paper, we first describe the fundamentals, algorithms, and existing problems of SMOTE. Then, with respect to the existing problems of SMOTE, we introduce related research on four types of extension methods and three types of applications. Finally, to provide valuable reference information for the research and application of SMOTE, we analyze the existing difficulties of applying SMOTE to big data, streaming data, a small amount of label data, and other types of data.
备注/Memo
收稿日期:2019-06-27。
基金项目:国家自然科学基金资助项目(61801279);山西省自然科学基金项目(201801D121115,2014011022-2)
作者简介:石洪波,女,1965年生,教授,博士生导师,主要研究方向为机器学习、人工智能。主持和参与国家自然科学基金项目、山西省自然科学基金项目等20余项。发表学术论文50余篇;陈雨文,女,1995年生,硕士研究生,主要研究方向为数据挖掘、商务智能;陈鑫,男,1995年生,硕士研究生,主要研究方向为机器学习、数据挖掘、商务智能
通讯作者:石洪波.E-mail:shihb@sxufe.edu.cn
更新日期/Last Update:
2019-12-25