一种基于向量空间模型的多层次文本分类方法被引量：75

An Approach of Multi-hierarchy Text Classification Based on Vector Space Model

下载PDF

导出

摘要本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明。 This paper does research and improves on the classical approach of calculating the term weight in Vector Space Model.Furthermore,an approach of multi hierarchy text classification based on Vector Space Model is proposed.In this approach,all classes are organized as a tree according to some given hierarchical relations,and all the training documents in a class are combined into a class document.In order to construct the class models,it is just only to compare among the class documents attached to the same node of the same layer.When it is going to classify the documents,one matching process is hierarchically performed from the root node to the leaf nodes until a corresponding subclass is found.The experiment and real systems indicate that the approach is of high classification Precision and Recall.

作者刘少辉董明楷张海俊李蓉史忠植

机构地区中国科学院计算技术研究所智能信息处理重点实验室

出处《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页 Journal of Chinese Information Processing

基金国家自然科学基金 (6 0 1730 17) 北京自然科学基金 (40 110 0 3)支持

关键词多层次文本分类方法向量空间模型信息增益特征提取词语权重层次关系文档分类 Text Classification Vector Space Model Information Gain Feature Selection

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1张月杰,姚天顺.基于特征相关性的汉语文本自动分类模型的研究[J].小型微型计算机系统,1998,19(8):49-55. 被引量：21
2邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45
3李国臣.文本分类中基于对数似然比测试的特征词选择方法[J].中文信息学报,1999,13(4):16-21. 被引量：18
4李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57
5黄萱菁.大规模中文文本的检索、分类与摘要研究.复旦大学博士学位论文[M].,1998..
6鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120

二级参考文献23

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2杨允信.中文文件自动分类之研究.台湾第六届计算语言学研讨会论文集[M].-,1993..
3丁均彦.文本分类系统的研究与实现[硕士学位论文].北京:清华大学,1998..
4刘东立，东北大学学报，1995年
5吴军，中文信息学报，1995年，9卷，4期
6姚天顺，自然语言理解，1995年
7刘湘生，中国分类主题词表，1994年
8梅家驹，同义词词林，1983年
9吴立德，大规模中文文本处理，1997年
10揭春雨，中文信息学报，1989年，3卷，1期，1页

共引文献244

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
3肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
4李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
5杨创新,彭宏,杨沛.一种基于主题树模型的Web主题检索算法[J].计算机工程与应用,2004,40(16):184-187.
6杨创新.一种基于主题的Web预取算法研究[J].机电工程技术,2004,33(6):35-36.
7许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
8刘峰,王秀坤,杨南海,马霖.中英文专业搜索引擎中数据采集加工的设计与实现[J].计算机应用研究,2004,21(10):155-157. 被引量：5
9胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
10张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1

同被引文献472

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
3梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
4刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：35
5许增福,梁静国,田晓宇.基于加权模糊推理网络的文本自动分类方法[J].哈尔滨工程大学学报,2004,25(4):504-508. 被引量：1
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
7贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报（自然科学版）,2004,30(3):202-204. 被引量：9
8高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
9刘良斌,王小平.基于支持向量机和输出编码的文本分类器研究[J].计算机应用,2004,24(8):32-34. 被引量：8
10王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15

引证文献75

1高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
2吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：24
3胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
4徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
5李嘉佑,何清,史忠植.机器学习与网络信息处理[J].计算机工程与应用,2004,40(33):189-191. 被引量：3
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量：14
8万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
9寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
10王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13

二级引证文献452

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：17
2岳应娟,袁航,王旭.基于图像降维分解的内燃机故障特征快速提取方法[J].火箭军工程大学学报,2020(1):60-65.
3孙辉,陈晓云,马志新.基于语句-词条矩阵的聚簇式动态增长聚类算法[J].清华大学学报（自然科学版）,2005,45(S1):1814-1817. 被引量：1
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5李兴军.垃圾邮件过滤的贝叶斯算法研究[J].硅谷,2008,1(8):43-44.
6柳永念,郭会林.对C均值聚类算法的一些改进[J].广西大学学报（哲学社会科学版）,2007,29(S3):207-208.
7刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
8张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
9徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
10胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5

1叶勇.2011/08 Plus 多人写文章一键合并另有妙招[J].电脑爱好者,2011(16):22-22.
2于林娜.合并多个Word文档我有捷径[J].电脑爱好者（普及版）,2008,0(12):61-61.
3段荣伟,付立冬,夏广锋.语义分析在水环境领域的应用研究[J].电子技术与软件工程,2015(22):263-264.
4高蕾娜,史延枫,李艳丹.基于特定领域的加权语义相似度算法研究[J].成都大学学报（自然科学版）,2015,34(3):259-261. 被引量：1
5王昌红.三招搞定Word2003的文档合并[J].电脑知识与技术（经验技巧）,2013(2):38-39.
6朱全开.人多力量大文档合并一点通[J].软件指南,2005(6):40-41.
7张东礼,汪东升,郑纬民.基于VSM的中文文本分类系统的设计与实现[J].清华大学学报（自然科学版）,2003,43(9):1288-1291. 被引量：16
8王志军.利用WinRAR实现文档合并[J].电脑迷,2012(8):72-72.
9刘玉琴,刘嵩,于波.面向审查任务的中文专利检索模型与实验[J].计算机应用研究,2008,25(5):1483-1484.
10熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28

中文信息学报

2002年第3期

浏览历史

内容加载中请稍等...

一种基于向量空间模型的多层次文本分类方法被引量：75

参考文献6

二级参考文献23

共引文献244

同被引文献472

引证文献75

二级引证文献452

相关作者

相关机构

相关主题

浏览历史

一种基于向量空间模型的多层次文本分类方法 被引量：75

参考文献6

二级参考文献23

共引文献244

同被引文献472

引证文献75

二级引证文献452

相关作者

相关机构

相关主题

浏览历史

一种基于向量空间模型的多层次文本分类方法被引量：75