期刊文献+

一种基于向量空间模型的多层次文本分类方法 被引量:75

An Approach of Multi-hierarchy Text Classification Based on Vector Space Model
在线阅读 下载PDF
导出
摘要 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 This paper does research and improves on the classical approach of calculating the term weight in Vector Space Model.Furthermore,an approach of multi hierarchy text classification based on Vector Space Model is proposed.In this approach,all classes are organized as a tree according to some given hierarchical relations,and all the training documents in a class are combined into a class document.In order to construct the class models,it is just only to compare among the class documents attached to the same node of the same layer.When it is going to classify the documents,one matching process is hierarchically performed from the root node to the leaf nodes until a corresponding subclass is found.The experiment and real systems indicate that the approach is of high classification Precision and Recall.
出处 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页 Journal of Chinese Information Processing
基金 国家自然科学基金 (6 0 1730 17) 北京自然科学基金 (40 110 0 3)支持
关键词 多层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类 Text Classification Vector Space Model Information Gain Feature Selection
  • 相关文献

参考文献6

二级参考文献23

  • 1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量:24
  • 2杨允信.中文文件自动分类之研究.台湾第六届计算语言学研讨会论文集[M].-,1993..
  • 3丁均彦.文本分类系统的研究与实现[硕士学位论文].北京:清华大学,1998..
  • 4刘东立,东北大学学报,1995年
  • 5吴军,中文信息学报,1995年,9卷,4期
  • 6姚天顺,自然语言理解,1995年
  • 7刘湘生,中国分类主题词表,1994年
  • 8梅家驹,同义词词林,1983年
  • 9吴立德,大规模中文文本处理,1997年
  • 10揭春雨,中文信息学报,1989年,3卷,1期,1页

共引文献244

同被引文献472

引证文献75

二级引证文献452

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部