[1]罗玲,李硕凯,何清,等.基于知识图谱、TF-IDF和BERT模型的冬奥知识问答系统[J].智能系统学报,2021,16(4):819-826.[doi:10.11992/tis.202105047]
LUO Ling,LI Shuokai,HE Qing,et al.Winter Olympic Q & A system based on knowledge map, TF-IDF and BERT model[J].CAAI Transactions on Intelligent Systems,2021,16(4):819-826.[doi:10.11992/tis.202105047]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
16
期数:
2021年第4期
页码:
819-826
栏目:
吴文俊人工智能科学技术奖论坛
出版日期:
2021-07-05
- Title:
-
Winter Olympic Q & A system based on knowledge map, TF-IDF and BERT model
- 作者:
-
罗玲1,2, 李硕凯1,2, 何清1,2, 杨骋骐2, 王宇洋恒2, 陈天宇2
-
1. 中国科学院计算技术研究所 智能信息处理重点实验室,北京 100190;
2. 中国科学院大学,北京 100049
- Author(s):
-
LUO Ling1,2, LI Shuokai1,2, HE Qing1,2, YANG Chengqi2, WANG Yuyangheng2, CHEN Tianyu2
-
1. Key Lab of Intelligent Information Processing, Institute of Computing Technology of Chinese Academy of Sciences, Beijing 100190, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China
-
- 关键词:
-
智能问答; 冬奥问答; 对话模型; 知识图谱; TF-IDF; BERT
- Keywords:
-
Intelligent Q & A; Winter Olympics Q & A; dialogue model; knowledge map; TF-IDF; BERT
- 分类号:
-
TP391
- DOI:
-
10.11992/tis.202105047
- 摘要:
-
传统信息检索技术已经不能满足人们对信息获取效率的要求,智能问答系统应运而生,并成为自然语言处理领域一个非常重要的研究热点。本文针对中文的冬奥问答领域,提出了基于知识图谱、词频-逆文本频率指数 (term frequency-inverse document frequency,TF-IDF)和自注意力机制的双向编码表示(bidirectional encoder representation from transformers,BERT)的3种冬奥问答系统模型。本文首次构建了冬奥问答数据集,并将上述3种方法集成在一起,应用于冬奥问答领域,用户可以使用本系统来快速准确地获取冬奥内容相关的问答知识。进一步,对3种模型的效果进行了测评,测量了3种模型各自的回答可接受率。实验结果显示BERT模型的整体效果略优于知识图谱和TDIDF模型,BERT模型对3类问题的回答可接受率都超过了96%,知识图谱和TDIDF模型对于复合统计问答对的回答效果不如BERT模型。
- Abstract:
-
With the advent of the information age, traditional information retrieval technology can no longer meet people’s requirements for the efficiency in information acquisition, so intelligent question answering systems are proposed and have become a very important research hotspot in natural language processing. This paper proposes three Winter Olympics Q&A system models based on knowledge graph, TFIDF and BERT for the Chinese Winter Olympics Q&A, constructing the Winter Olympics Q&A data set for the first time and integrating the above three methods into the Winter Olympics Q&A. Users can use this system to quickly and accurately obtain the Q&A knowledge related to the Winter Olympics content. Furthermore, this paper evaluates the effects of the three models and measures the acceptance rate of each model. The experimental results show that overall the BERT model is slightly better than the knowledge graph and TDIDF model. The acceptance rate of the BERT model for each of the three types of questions exceeds 96%. The knowledge graph and TDIDF model are not so effective as the BERT model for the answer to the composite statistical question and answer pair.
备注/Memo
收稿日期:2021-05-31。
基金项目:国家重点研发计划项目(2017YFB1002104)
作者简介:罗玲,女,硕士,主要研究方向为自然语言处理与强化学习;李硕凯,博士研究生,主要研究方向为数据挖掘、推荐系统与元学习;何清,研究员,博士生导师,中国人工智能学会副秘书长、常务理事、知识工程与分布智能专业委员会秘书长、机器学习专业委员会常务委员,中国计算机学会高级会员、人工智能与模式识别专业委员会委员,中国电子学会云计算专家委员会委员.主要研究方向为机器学习、数据挖掘、文本挖掘、基于云计算的分布式并行数据挖掘。主持和参与国家“863”和“973”计划、国家自然科学基金等科研项目多项, 2008年底,何清研究员带领他的中科院计算所数据挖掘团队,受中国移动研究院委托,合作开发完成了基于云计算的并行数据挖掘平台,用于TB级实际数据的挖掘,实现了高性能、低成本的数据挖掘。发表学术论文近百篇
通讯作者:何清.E-mail:heqing@ict.ac.cn
更新日期/Last Update:
1900-01-01