[1]夏睿,宗成庆.情感文本分类混合模型及特征扩展策略[J].智能系统学报,2011,6(6):483-488.
XIA Rui,ZONG Chengqing.A hybrid approach to sentiment classification and feature expansion strategy[J].CAAI Transactions on Intelligent Systems,2011,6(6):483-488.
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
6
期数:
2011年第6期
页码:
483-488
栏目:
学术论文—自然语言处理与理解
出版日期:
2011-12-25
- Title:
-
A hybrid approach to sentiment classification and feature expansion strategy
- 文章编号:
-
1673-4785(2011)06-0483-06
- 作者:
-
夏睿,宗成庆
-
中国科学院 自动化研究所,北京 100190
- Author(s):
-
XIA Rui, ZONG Chengqing
-
Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
-
- 关键词:
-
文本分类; 情感分类; 混合模型; 特征扩展
- Keywords:
-
text classification; sentiment classification; hybrid model; feature expansion
- 分类号:
-
TP391.1
- 文献标志码:
-
A
- 摘要:
-
针对篇章级别情感文本分类问题,分析了传统的生成式模型和判别式模型的性能,提出了一种级联式情感文本分类混合模型以及句法结构特征扩展策略.在该模型中,生成式模型(朴素贝叶斯分类器)和判别式模型(支持向量机)以级联的方式进行组合,旨在消除对于分类临界样本,模型判决置信度不足引起的误差.在混合模型的基础上,提出了一种高效扩展依存句法特征的策略.该策略既提高了系统的正确率,又避免了传统特征扩展方法所带来的计算量增加的问题.实验结果表明,混合模型及特征扩展策略与传统方法相比,在算法准确性和效率上,都有显著的提高.
- Abstract:
-
In this paper, focusing on sentiment text classification, the performance of generative and discriminative models for sentiment classification was studied, and a hybrid approach to sentiment classification was proposed. The individual generative classifier (naive Bayes,(NB) and the discriminative classifier (support vector machines,SVM) were merged into a hybrid version in a twostage process in order to overcome individual drawbacks and benefit from the merits of both systems. On the basis of the hybrid classifier, an efficient strategy of incorporating dependency features was also presented. The strategy not only increases the accuracy of the system, but also avoids the defects of increased computing volume brought by the traditional feature expansion method. Experimental results show the apparent advantages of this approach in both classification accuracy and efficiency.
备注/Memo
收稿日期: 2011-05-12.
基金项目:国家自然科学基金项目资助项目(60975053);中科院-爱丁堡皇家学会交流项目.
通信作者:夏睿.E-mail:rxia@nlpr.ia.ac.cn.
?作者简介:
夏睿,男,1981年生,博士,主要研究方向为模式识别、机器学习、自然语言处理和文本挖掘等.
宗成庆,男,1963年生,研究员,博士生导师,中科院自动化所模式识别国家重点实验室副主任.亚洲自然语言处理联合会(AFNLP)执行理事、国际学术期刊 IEEE Intelligent Systems 副主编、ACM Transactions on Asian Language Information Processing 副主编、International Journal of Computer Processing of Languages 副主编、Journal of Computer Science and Technology编委、《自动化学报》编委、中国中文信息学会常务理事、中国人工智能学会理事,并曾在若干国际学术会议(包括ACL、COLING等本领域顶级国际会议)上担任程序委员会及组织委员会主席、Area Chair、委员等职务.主要研究方向为自然语言处理的理论与方法、机器翻译、文本分类等.在大规模口语语料库建设、口语理解与翻译、文本机器翻译和自动分类等方面,提出了一系列新的技术和方法,多次在国际口语翻译权威评测中获得优异成绩.申请国家发明专利10余项。在国内外重要学术刊物和会议上发表学术论文70余篇,出版学术专著1部.
更新日期/Last Update:
2012-02-29