[1]潘主强,张林,张磊,等.中医临床不均衡数据疾病分类方法研究[J].智能系统学报,2017,12(6):848-856.[doi:10.11992/tis.201706046]
PAN Zhuqiang,ZHANG Lin,ZHANG Lei,et al.Research on classification of diseases of clinical imbalanced data in traditional Chinese medicine[J].CAAI Transactions on Intelligent Systems,2017,12(6):848-856.[doi:10.11992/tis.201706046]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
12
期数:
2017年第6期
页码:
848-856
栏目:
学术论文—智能系统
出版日期:
2017-12-25
- Title:
-
Research on classification of diseases of clinical imbalanced data in traditional Chinese medicine
- 作者:
-
潘主强1, 张林1, 张磊2, 李国正3, 颜仕星4
-
1. 西南石油大学 计算机科学学院, 四川 成都 610500;
2. 中国中医科学院 中医临床基础医学研究所, 北京 100700;
3. 中国中医科学院 中医药数据中心, 北京 100700;
4. 上海金灯台信息科技有限公司, 上海 201800
- Author(s):
-
PAN Zhuqiang1, ZHANG Lin1, ZHANG Lei2, LI Guozheng3, YAN Shixing4
-
1. School of Computer Science, Southwest Petroleum University, Chengdu 610500, China;
2. Institute of Basic Research in Clinical Medicine of Traditional Chinese Medicine, China Academy of Chinese Medical Science, Beijing 100700, China;
3. National D
-
- 关键词:
-
中医临床; 不均衡数据分类; 原始数据分布; 特征选择
- Keywords:
-
Chinese medicine clinical; imbalance data classification; initial data distribution; feature selection
- 分类号:
-
TP391
- DOI:
-
10.11992/tis.201706046
- 摘要:
-
基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方式尽可能地反映原始数据分布,然后结合集成学习、预测风险标准提高不均衡的分类性能并进行特征选择。在中医临床采集的经络电阻数据上的实验结果表明,该算法改善了曲线下面积并且选择的特征也符合中医学相关理论。
- Abstract:
-
An algorithm based on under-sampling unbalanced data classification is a stochastic data optimization algorithm. However, in traditional Chinese medicine (TCM), it is difficult to best reflect the distribution of original clinical data to solve the problem of feature redundancy in data. Therefore, in this paper, the PRFS-FPUSAB algorithm is proposed. In the algorithm, an improved sampling method is proposed based on under-sampling. The original data distribution is reflected as much as possible; then, the classification is improved by combining integrated learning, prediction risk, and feature selection. The experimental results on meridian resistance data collected from TCM show that the algorithm improves the area under the curve, and the selected characteristics are also in accordance with TCM theory.
备注/Memo
收稿日期:2017-06-14;改回日期:。
基金项目:国家自然科学基金项目(81503680);中央级公益性科研院所基本科研业务费专项资金项目(ZZ0908032);全民健康保障信息化工程中医药研究项目(215005).
作者简介:潘主强,男,1987年生,硕士研究生,CCF会员,主要研究方向为数据挖掘;张林,男,1963年生,教授,博士,主要研究方向为计算机图像处理、计算机网络安全。曾获国家科学技术进步三等奖1项,发表学术论文10余篇;张磊,男,1981年生,助理研究员,博士,主要研究方向为中医临床数据挖掘。
通讯作者:张磊.E-mail:tcmxpzl@126.com.
更新日期/Last Update:
2018-01-03