基于SVM的哈萨克语文本分类被引量：2

Study on Kazak text categorization based on SVM

下载PDF

导出

摘要介绍了支持向量机(SVM)和k-最近邻法(kNN)分类算法的思想和两种哈萨克语特征提取方法。对SVM、kNN和Bayes算法在哈萨克语文本分类的实验进行了比较。实验结果表明:在处理哈萨克语文本分类问题上,SVM较kNN和Bayes有较好的分类效果。由于哈萨克文单词的语素和构形的特点,若对哈萨克语词缀进行切分,则会降低文本分类的准确率和查全率。 This paper introduced the basic theory of the Support Vector Machine （SVM） and k-Nearest Neighbor （kNN） algorithm and two different features selection methods in Kazak natural language.An empirical study of using the SVM,kNN,Bayes algorithm to categorize the Kazak text was conducted.The experimental results show that compared with kNN,Bayes,SVM has better categorization of the Kazak text.Due to the characteristics of Kazak＇s morpheme and configuration,the precision and recall will be lowered if the word is cut with affix.

作者王花古丽拉.阿东别克吴守用

机构地区新疆大学信息科学与工程学院

出处《计算机应用》 CSCD 北大核心 2010年第6期1676-1678,共3页 journal of Computer Applications

基金国家自然科学基金资助项目(60763005) 国家教育部/国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)

关键词文本分类支持向量机特征选择 k-最近邻法 text categorization Support Vector Machine （SVM） feature selection k-Nearest Neighbor （kNN）

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1MITCHELL T M.Machine learning[M].New York:McGraw Hill,1997.
2VAMNIK V.Statistical learning theory[M].New York:Wiley,1998.
3OSUNA E,FREUND R,GIROSI F.Support vector machines:Training and applications,AI Memo 1602[R].Cambridge:MIT,1997.
4SOMAN K P.数据挖掘基础教程[M].范明,牛常勇,译.北京:机械工业出版社,2009.
5DUNNING T.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics,1993,19(1):61-74.
6MOYOTL-HERNANDEZ E,JIMENEZ-SALAZAR H.Enhancement of DTP feature selection method for text categorization[C]//CICLing 2005.Washington,DC:IEEE,2005:719-722.
7代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：230
8石志伟,吴功宜.改善朴素贝叶斯在文本分类中的稳定性[C]//NCIRCS2004.上海:2004:137-145.
9AAS K,EIKVIL L.Text eategorisation:A survey(1999)[EB/OL].[2009-10-10].http//citeseer.ist.pus.edu/aas99text.html.
10TAGHVA K,BORSACK J,LUMOS S,et al.A comparison of automatic and manual zoning:An information retrieval prospective[J].International Journal on Document Analysis and Recognition,2004,6(4):230-235.

二级参考文献4

1黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
2何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
3孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
4朱寰,阮彤,于庆喜.文本分割算法对中文信息过滤影响研究[J].计算机工程与应用,2002,38(13):62-65. 被引量：11

共引文献242

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2
8王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
9张玉叶,李连,刘海见,王春歆.文本过滤中的特征抽取应用研究[J].海军航空工程学院学报,2005,20(1):139-141. 被引量：4
10杨应全,文汝.网络环境下文本自动分类分析[J].科技文献信息管理,2005,19(1):31-34.

同被引文献17

1孙晋文,肖建国.基于SVM文本分类中的关键词学习研究[J].计算机科学,2006,33(11):182-184. 被引量：12
2马金娜,田大钢.基于支持向量机的中文文本自动分类研究[J].系统工程与电子技术,2007,29(3):475-478. 被引量：14
3Sebastiani F.Machine Learning in Automated Text Categori-zation[J].ACM Computing Surveys,2002,34(1):1-47.
4Joachims T.Text Categorization with Support Vector Ma-chines:Learning with Many Relevant Features[C]∥Proc of the10th European Conference on Machine Learning,1998:137-142.
5James G S,Norbert R.Improving SVM Text Classification Performance Through Threshold Adjustment[C]∥Proc of the14th European Conference on Machine Learning,2003:361-372.
6Kim H,Howland P,Park H.Dimension Reduction in Text Classification with Support Vector Machine[J].Journal of Machine Learning Research,2005,6(1):37-53.
7Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.
8Vapnik V.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1995.
9Weka3:Data Mining Software in Java[EB/OL].[2011-09-10].http://www.cs.waikato.ac.nz/-ml/weka/index.ht-ml.
10Chang C-C,Lin C-J.LIBSVM:A Library for Support Vector Machines[EB/OL].[2011-09-10].http://www.csie.ntu.edu.tw/-cjlin/libsvm/.

引证文献2

1阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
2沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉.词干单元和卷积神经网络的哈萨克短文本分类[J].小型微型计算机系统,2020,41(8):1627-1633. 被引量：1

二级引证文献12

1阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,瓦依提.阿不力孜,艾山.吾买尔.基于类别分布差异和特征熵的维吾尔语文本特征选择[J].计算机应用研究,2013,30(10):2958-2961. 被引量：5
2张亚军,吴晓林,贺琛琛.浅谈新疆多语种智能化研究现状[J].电脑知识与技术,2014(1):138-140.
3阿力木江.艾沙,库尔班.吾布力,吐尔根.依布拉音.维吾尔文Bigram文本特征提取[J].计算机工程与应用,2015,51(3):216-221. 被引量：3
4如先姑力.阿布都热西提,贺一峰,亚森.艾则孜.基于文本分类的维吾尔文数字取证研究[J].现代电子技术,2016,39(10):9-13. 被引量：1
5赵旭东,亚森.艾则孜.基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案[J].电子设计工程,2016,24(16):109-112. 被引量：3
6阿丽亚.艾尔肯,哈力旦.阿布都热依木,何燕,吴冰冰.基于深度置信网络的维吾尔文垃圾短信分类技术研究[J].计算机工程与科学,2016,38(10):2134-2139. 被引量：6
7阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：9
8如先姑力.阿布都热西提,亚森.艾则孜,年梅.基于广泛相似度的维吾尔语文档分类方案[J].计算机工程与设计,2017,38(6):1686-1691.
9韩军兵,哈力旦.阿布都热依木,古力努尔.艾尔肯,何燕.改进信息增益的维吾尔文特征选择方法[J].计算机工程与应用,2017,53(23):34-38. 被引量：3
10刘一然,骆力明.基于SVM的学科试题自动分类研究[J].计算机应用与软件,2019,36(1):197-203. 被引量：9

1陈琳,王箭.三种中文文本自动分类算法的比较和研究[J].计算机与现代化,2012(2):1-4. 被引量：6
2石义,钱步仁.基于内容与行为特征的反垃圾邮件系统[J].网络安全技术与应用,2009(4):20-21. 被引量：3
3黄冬梅,顾兢兢.基于Bayes算法的态势评估[J].舰船电子工程,2012,32(5):46-47. 被引量：1
4梁曌,陈思宇,梁小林,康欣.基于KNN和Bayes算法的组合分类器的垃圾评论识别研究[J].经济数学,2016,33(1):36-41. 被引量：1
5赵妮娜.改进的Salbayes算法在图像识别中的研究[J].计算机光盘软件与应用,2012,15(24):25-27. 被引量：1
6周毅灵,耿增民.服装网页自动分类技术研究[J].北京服装学院学报（自然科学版）,2011,31(1):55-59. 被引量：2
7刘信杰,李艳,胡学钢.Naive Bayes算法在垃圾邮件过滤系统中的应用与改进[J].潍坊学院学报,2007,7(6):26-27. 被引量：2
8耿德志.基于Bayes算法的垃圾邮件过滤[J].晋中学院学报,2015,32(3):72-76. 被引量：2
9吴秀清,韩彬斌.基于Bayes算法的Web网页识别[J].计算机工程,2000,26(3):6-7. 被引量：3
10张黎黎.Web文本挖掘在智能分类中的应用[J].山东工业技术,2013(11):10-10.

计算机应用

2010年第6期

浏览历史

内容加载中请稍等...

基于SVM的哈萨克语文本分类被引量：2

参考文献10

二级参考文献4

共引文献242

同被引文献17

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于SVM的哈萨克语文本分类 被引量：2

参考文献10

二级参考文献4

共引文献242

同被引文献17

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于SVM的哈萨克语文本分类被引量：2