[1]喻波,王志海,孙亚东,等.非结构化文档敏感数据识别与异常行为分析[J].智能系统学报,2021,16(5):932-939.[doi:10.11992/tis.202104028]
YU Bo,WANG Zhihai,SUN Yadong,et al.Unstructured document sensitive data identification and abnormal behavior analysis[J].CAAI Transactions on Intelligent Systems,2021,16(5):932-939.[doi:10.11992/tis.202104028]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
16
期数:
2021年第5期
页码:
932-939
栏目:
吴文俊人工智能科技进步奖一等奖
出版日期:
2021-09-05
- Title:
-
Unstructured document sensitive data identification and abnormal behavior analysis
- 作者:
-
喻波, 王志海, 孙亚东, 谢福进, 安鹏
-
北京明朝万达科技股份有限公司,北京 100876
- Author(s):
-
YU Bo, WANG Zhihai, SUN Yadong, XIE Fujin, AN Peng
-
Beijing Wondersoft Technology Co., Ltd, Beijing 100876, China
-
- 关键词:
-
数据安全; 人工智能; 分类分级; 语言模型; 用户异常行为分析; 样本; 自然语言处理; 监督学习
- Keywords:
-
data security; artificial intelligence; classification; language model; user’s behavior analysis; sample; nlp; supervised learning
- 分类号:
-
TP18;TP319;TP309
- DOI:
-
10.11992/tis.202104028
- 摘要:
-
在海量数据中快速、准确地对数据进行分类分级,快速识别用户异常行为是目前数据安全领域的重要研究内容。在数据分类分级研究领域,自然语言处理技术提升了分类分级的准确率,但是中文语体混杂、无监督学习准确率低、有监督学习样本标注工作量大等问题亟待取得关键突破。本文提出多元中文语言模型和基于无监督算法构建样本,突破数据分类分级领域面临的关键问题。在用户异常行为分析研究领域,由于样本依赖度过高,导致异常行为识别准确率较低,本文提出利用离群点检测方法构建异常行为样本库,解决样本依赖过高问题。为验证方法可行性,进一步构建实验系统开展实验分析,通过实验验证所提出方法可以显著提高数据分类分级和异常行为分析的准确率。
- Abstract:
-
It is an important research content in the field of data security to classify data quickly and accurately in mass data, and to quickly identify user abnormal behavior. In the field of data classification research, natural language processing technology improves the accuracy of classification, but the problems of mixed Chinese language, low accuracy of unsupervised learning, and large workload of supervised learning sample labeling need to be Chinese made urgently. In the field of user anomaly analysis, due to high sample dependence, which leads to low accuracy of abnormal behavior recognition, this paper proposes to use outlier detection to build an abnormal behavior sample library to solve the problem of excessive sample dependence. In order to verify feasibility of the method, the experimental system is further constructed to carry out experimental analysis, and the proposed method can significantly improve the accuracy of data classification and abnormal behavior analysis.
备注/Memo
收稿日期:2021-04-16。
基金项目:国家电子发展基金项目(工信部财[2014]425 号)
作者简介:喻波,北京明朝万达科技股份有限公司首席科学家、高级副总裁,兼任公安部通信标准化技术委员会委员,主要研究方向为数据安全。主持国家重点研发计划、国家自然科学基金重点项目6项。获吴文俊人工智能科技进步奖一等奖、授权发明专利 120余项;王志海,北京明朝万达科技有限公司董事长、总裁,计算机安全专业委员会常务委员、《信息安全技术》编委会委员,中国大数据生态产业联盟专家委员,国家移动信息产业技术创新战略联盟理事长,主要研究方向为数据安全。获吴文俊人工智能科技进步奖一等奖、授权发明专利120余项,出版专著1部;孙亚东,数据安全解决方案专家,主要研究方向为数据安全。获吴文俊人工智能科技进步奖一等奖、申请国家发明专利13项,授权3项,参与编写数据安全国家标准2项
通讯作者:喻波.E-mail:yubo@wondersoft.cn
更新日期/Last Update:
1900-01-01