[1]古丽娜孜·艾力木江,乎西旦·居马洪,孙铁利,等.基于支持向量的最近邻文本分类方法[J].智能系统学报,2018,13(5):799-807.[doi:10.11992/tis.201711007]
GULNAZ Alimjan,HURXIDA Jumahun,SUN Tieli,et al.The nearest neighbor text classification method based on support vector[J].CAAI Transactions on Intelligent Systems,2018,13(5):799-807.[doi:10.11992/tis.201711007]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
13
期数:
2018年第5期
页码:
799-807
栏目:
学术论文—自然语言处理与理解
出版日期:
2018-09-05
- Title:
-
The nearest neighbor text classification method based on support vector
- 作者:
-
古丽娜孜·艾力木江1,2,3, 乎西旦·居马洪1, 孙铁利2, 梁义1
-
1. 伊犁师范学院 电子与信息工程学院, 新疆 伊宁 835000;
2. 东北师范大学 计算机科学与技术学院, 吉林 长春 130117;
3. 东北师范大学 地理科学学院, 吉林 长春 130024
- Author(s):
-
GULNAZ Alimjan1,2,3, HURXIDA Jumahun1, SUN Tieli2, LIANG Yi1
-
1. Department of Electronics and Information Engineering, Yili Normal University, Yining 835000, China;
2. School of Information Science and Technology, Northeast Normal University, Changchun 130117, China;
3. Department of Geographical Science, Nor
-
- 关键词:
-
词干提取; 预处理; 支持向量机; 文本分类; 分类精度
- Keywords:
-
stemming; preprocessing; support vector machines; text categorization; classification accuracy
- 分类号:
-
TP309
- DOI:
-
10.11992/tis.201711007
- 摘要:
-
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。
- Abstract:
-
Text categorization automatically assigns a set of predefined categories or topics to a document. In text classification, the representation of the document has a great influence on the learning performance of the learning machine. The aim is to achieve Kazakh text classification, according to Kazakh grammar rules, the stemming of Kazakh texts is designed to complete the preprocessing of Kazakh text. A sample distance formula based on the latest support vector machine (SVM) is proposed to avoid the selection of k-parameters. The Kazakh texts are classified by special combination of SVM and KNN classification algorithms (SV-NN). Combining the corpus of Kazakh text corpora constructed by himself, text categorization simulation experiments were conducted. Numerical experiments showed the effectiveness of the proposed algorithm and confirmed the theoretical results.
备注/Memo
收稿日期:2017-11-02。
基金项目:伊犁师范学院一般项目(2016WXYB0004);国家自然科学基金项目(61663045);新疆高校科研计划重点研究项目(XJEDU2014I043);伊犁师范学院重点项目(2016YSZD04).
作者简介:古丽娜孜·艾力木江,女,1972年生,副教授,博士,主要研究方向为机器学习、模式识别、智能信息分类与图像处理。参与国家级、省部级科研项目3项,承担院级重点项目4项。发表学术论文20余篇;乎西旦·居马洪,女,1966年生,教授,主要研究方向为智能信息处理、人脸识别。承担国家级、省部级科研项目4项。发表学术论文20余篇,出版教材1部;孙铁利,男,1956年生,教授,博士生导师,主要研究方向为智能用户接口、智能信息挖掘。承担国家级、省部级科研项目12项。发表学术论文150余篇,出版专著及教材10部。
通讯作者:古丽娜孜·艾力木江.E-mail:alay328@163.com.
更新日期/Last Update:
2018-10-25