[1]吕佳,邱鸿波,肖锋.基于动态阈值和差异性检验的自训练算法[J].智能系统学报,2024,19(4):839-852.[doi:10.11992/tis.202306047]
LYU Jia,QIU Hongbo,XIAO Feng.Self-training algorithm based on dynamic threshold and difference test[J].CAAI Transactions on Intelligent Systems,2024,19(4):839-852.[doi:10.11992/tis.202306047]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
19
期数:
2024年第4期
页码:
839-852
栏目:
学术论文—机器学习
出版日期:
2024-07-05
- Title:
-
Self-training algorithm based on dynamic threshold and difference test
- 作者:
-
吕佳1,2, 邱鸿波1,2, 肖锋1,2
-
1. 重庆师范大学 计算机与信息科学学院, 重庆 401331;
2. 重庆市数字农业服务工程技术研究中心, 重庆 401331
- Author(s):
-
LYU Jia1,2, QIU Hongbo1,2, XIAO Feng1,2
-
1. College of Computer and Information Sciences, Chongqing Normal University, Chongqing 401331, China;
2. Chongqing Digital Agriculture Service Engineering Technology Research Center, Chongqing 401331, China
-
- 关键词:
-
自训练算法; 误标记样本; 高置信度样本; 动态阈值; 差异性检验; 局部离群因子; 对比隶属度; 密集距离
- Keywords:
-
self-training algorithm; mislabeled samples; high-confidence samples; dynamic threshold; difference test; local outlier factor; contrast membership; dense distance
- 分类号:
-
TP181
- DOI:
-
10.11992/tis.202306047
- 摘要:
-
针对自训练算法在迭代训练分类器的过程中存在难以有效选取高置信度样本以及误标记样本错误累积的问题,本文提出了基于动态阈值和差异性检验的自训练算法。引入样本的局部离群因子,据此剔除有标签样本中的离群点以及分类标注无标签样本,依据标注分批次处理无标签样本,以使模型更易选取到高置信度的无标签样本;根据新增伪标签样本的数量和对比隶属度的变化,设计一种动态隶属度阈值函数,提升高置信度样本的质量;定义密集距离度量样本间的差异性,分别计算伪标签样本与同类和不同类样本之间的密集距离之和,从而找出不确定度高的伪标签样本,并将此类样本并入下轮训练的无标签样本集中,缓解误标记样本错误累积的问题。实验结果表明,该算法在12个UCI基准数据集上均取得理想效果。
- Abstract:
-
In the process of iterative training of the classifier by a self-training algorithm, it is difficult to effectively select high-confidence samples and there exists mislabeled samples error accumulation. To address the above issues, this paper proposes a self-training algorithm based on dynamic threshold and difference test.
备注/Memo
收稿日期:2023-06-26。
基金项目:国家自然科学基金重大项目(11991024);重庆市教委“成渝地区双城经济圈建设”科技创新项目(KJCX2020024);重庆市高校创新研究群体资助项目(CXQT20015).
作者简介:吕佳,教授,博士,主要研究方向为机器学习、数据挖掘。主持或参与国家级、省部级科研项目共20项,发表学术论文70余篇。E-mail:lvjia@cqnu.edu.cn;邱鸿波,硕士研究生,主要研究方向为机器学习、凸优化算法、噪声标签学习算法。E-mail:2021110516007@cqnu.edu.cn;肖锋,硕士研究生,主要研究方向为机器学习、数据挖掘、数据流算法。E-mail:2021210516083@cqnu.edu.cn
通讯作者:吕佳. E-mail:lvjia@cqnu.edu.cn
更新日期/Last Update:
1900-01-01