期刊文献+

一种基于反向文本频率互信息的文本挖掘算法研究 被引量:9

Reverse text frequency based on mutual information on text categorization
在线阅读 下载PDF
导出
摘要 针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。 In view of the traditional text classification algorithm has the characteristics of classification results on the influence of the same,the classification accuracy rate is low,caused at the same time algorithm time complexity increases,based on the analysis of the text classification system of the general model,as well as in the application of mutual information feature extraction method based on feature,this paper put forward a method based on reverse text frequency mutual information entropy text classification algorithm.The algorithm first used based on the VSM on the text sample vector feature extraction,then the text imaged to extract key words set,selection of key words in the text,using mutual information to represent and computational lexicon and document classification correlation,finally calculated key words in the document weight.The experimental results show that the proposed algorithm and the traditional classification algorithm,has high computing speed and strong nonlinear mapping ability,the speed of convergence and accuracy are better classification effect.
作者 周戈
出处 《计算机应用研究》 CSCD 北大核心 2012年第2期487-489,共3页 Application Research of Computers
关键词 文本挖掘 互信息 向量空间模型 权重 text categorization mutual information vector space model weight
  • 相关文献

参考文献8

二级参考文献28

  • 1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量:24
  • 2陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量:96
  • 3卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
  • 4Han J,Data Mining:Concepts and Techniques,2000年
  • 5Wang K,Proc of VLDB'97,1999年,363页
  • 6Zaiane O R,Proc Int Workshop Web Information and Data Management(WIDM'98),1998年,9页
  • 7Mobasher B,Tech Rep:TR96 0 5 0,1996年
  • 8Zaiane O R,Proc KDD'95,1995年,331页
  • 9Yang Yiming, Pederson Jan O. A comparative study on feature selection in text categorization [A]. Proceedings of the 14th International Conference on Machine learning[C]. Bled: Morgan Kaufmann, 1997: 258-267.
  • 10Liu Tao, Liu Shengping, Chen Zheng. An evaluation on feature selection for text clustering [A]. Proceedings of the 20th International Conference on Machine learning[C]. Washington DC:2003.

共引文献518

同被引文献79

引证文献9

二级引证文献36

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部