[1]贾真,何大可,杨燕,等.基于弱监督学习的中文网络百科关系抽取[J].智能系统学报,2015,10(1):113-119.[doi:10.10.3969/j.issn.1673-4785.201311017]
JIA Zhen,HE Dake,YANG Yan,et al.Relation extraction from Chinese online encyclopedia based on weakly supervised learnin[J].CAAI Transactions on Intelligent Systems,2015,10(1):113-119.[doi:10.10.3969/j.issn.1673-4785.201311017]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
10
期数:
2015年第1期
页码:
113-119
栏目:
学术论文—机器学习
出版日期:
2015-03-25
- Title:
-
Relation extraction from Chinese online encyclopedia based on weakly supervised learnin
- 作者:
-
贾真, 何大可, 杨燕, 杨宇飞, 冶忠林
-
西南交通大学 信息科学与技术学院, 四川 成都 610031
- Author(s):
-
JIA Zhen, HE Dake, YANG Yan, YANG Yufei, YE Zhonglin
-
School of Information and Science Technology, Southwest Jiaotong University, Chengdu 610031, China
-
- 关键词:
-
知识获取; 信息抽取; 关系抽取; 弱监督学习; 自扩展; 中文网络百科; 条件随机场; 朴素贝叶斯
- Keywords:
-
knowledge acquisition; information extraction; relation extraction; weakly supervised learning; bootstrapping; Chinese online encyclopedia; conditional random fields; naive Bayes
- 分类号:
-
TP391
- DOI:
-
10.10.3969/j.issn.1673-4785.201311017
- 文献标志码:
-
A
- 摘要:
-
实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的训练语料;然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方法获得较高的准确率。
- Abstract:
-
Entity relation extraction plays an important role in the fields of information retrieval, automatic question answering and ontology learning. An entity relation extraction frame based on weakly-supervised learning is proposed in the paper. First, training data are acquired automatically from natural language texts by using relation triples in structured knowledge base. To solve the problem that the number of training data is small and features are insufficient, a bootstrapping method is used to train sentence classifiers based on naive Bayes model. This method can acquire more training data from unlabelled data. The relation extractors are trained by using conditional random fields (CRF) model. The experiment results showed that the method is feasible and effective. Compared with the existing methods state-of-the-art method, the proposed method achieves high accuracy.
备注/Memo
收稿日期:2013-11-7;改回日期:。
基金项目:国家自然科学基金资助项目(61170111,61134002,61202043,61262058).
作者简介:贾真,1975年生,女,讲师,主要研究方向为内容安全、信息抽取、知识工程。四川省计算机学会大数据专委会委员,中国计算机学会中文信息技术专委会委员;何大可,1944年生,男,教授,博士生导师,中国密码学会副理事长、学术委员会委员,信息安全国家重点实验室第四届学术委员会委员,全国并行计算专业委员会委员,中国电子学会高级会员。主要研究方向为信息安全、内容安全、并行计算。曾获陕西省及国家教委科技进步二等奖、国家自然科学四等奖。发表学术论文240余篇,出版专著3部;杨燕,1964年生,女,教授,博士生导师,博士,主要研究方向为数据挖掘、计算智能、集成学习。ACM成都分部副主席,中国计算机学会人工智能与模式识别专委会委员和理论计算机科学专委会委员,中国人工智能学会机器学习专委会委员和粗糙集与软计算专委会委员。曾获四川省优秀教学成果二等奖,校优秀教学成果一、二等奖,发表学术论文120余篇,出版专著1部。
通讯作者:贾真.E-mail:zjia@home.swjtu.edu.cn.
更新日期/Last Update:
2015-06-16