基于改进BoS的Web文本分类研究被引量：1

Research on Web Text Classification Based on Improved BoS

下载PDF

导出

摘要提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度。改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度。经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高。 An improved text similarity calculation method is proposed. By means of giving different weights to sentences of different text blocks, removing short sentences directly and combining with high similar sentences, the total number of sentences in BoS （Bag of Sentences） can be decreased during similarity calculation and the processing speed can be increased. First of all, the improved text similarity calculation method calculates the similarity of the sentence according to the sentence similarity calculation method. Then the text similarity is calculated and finally the whole text similarity is calculated according to the weights of the text block. It is proved by experiments that the improved calculation method has significant improvement in recall rate and precision of text and F1 value.

作者彭俊杰陈丹敏

机构地区河南大学计算机与信息工程学院

出处《南京邮电大学学报（自然科学版）》北大核心 2013年第1期79-83,共5页 Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition

基金河南省科技攻关项目(102102210489)资助项目

关键词 WEB文本分类句子包向量空间模型文本挖掘 web text classification bag of sentences vector space model text mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1中国互联网络信息中心(CNNIC).第27次中国互联网络发展状况统计报告[EB/OL].[2011-12-10].http://www.cnnic.net.cn/dtygg/dtgg/201101/t20110118_20250.html.
2HUM S, JIA Z J. Web Text Categorization on GBODSS [ C ] // Pro- ceedings of 4th International Conference on Computer Science & Ed- ucation. 2009:599 -603.
3SALTON G,LESK M E. Computer Evaluation of Indexing and Text Processing[ J ]. Journal of the ACM, 1968,15 ( 1 ) :8 -36.
4YANG Y. An Evaluation of Statistical Approaches to Text Categori- zation[ J]. Journal of Information Retrieval, 1999,1 ( 1/2 ) :67 - 8g.
5WIENER E, PEDERSEN J O, WEIGEND A S. A Neural Network Approach to Topic Spotting [ C ]//Proceedings of the 4th Annum Symposium on Document Analysis and Information Retrieval. Nevad- a,Las Vegas,1995:317 -332.
6CHEN J N, HUANG H K, TIAN S F, et al. Feature Selection for Text Classification with Naive Bayes [ J ]. Expert Systems with Appli- cations,2009,36 (3) :5432 - 5435.
7张运良,张全.基于句类向量空间模型的自动文本分类研究[J].计算机工程,2007,33(22):45-47. 被引量：6
8黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,1998..
9何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
10吕学强,任飞亮,黄志丹,姚天顺.句子相似模型和最相似句子查找算法[J].东北大学学报（自然科学版）,2003,24(6):531-534. 被引量：68

二级参考文献31

1宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
2SHIYong-feng ZHAOYan-ping.Comparison of Text Categorization Algorithms[J].Wuhan University Journal of Natural Sciences,2004,9(5):798-804. 被引量：4
3冯玉才,李曲,何玉,冯剑琳.SAT-FOIL+:基于句子级关联的文本分类[J].计算机科学,2005,32(3):207-212. 被引量：1
4邹晶,冯剑琳,李曲,王元珍.基于句子级的最大频繁序列的文本分类[J].计算机科学,2006,33(1):236-239. 被引量：1
5张剑,李春平.基于WordNet概念向量空间模型的文本分类[J].计算机工程与应用,2006,42(4):174-178. 被引量：16
6张友华,熊范纶.基于句子相关度的文本自动分类[J].中国科学技术大学学报,2006,36(5):540-545. 被引量：4
7朱靖波,王宝库,姚天顺.一种规则描述语言NPRDL语言[J].东北大学学报（自然科学版）,1996,17(6):651-655. 被引量：1
8Salton G,Lesk M E.Computer evaluation of indexing and text processing[J].Journal of the ACM,1968,15(1):8-36.
9Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
10Cover T M,Hart P E.Nearest Neighbor Pattern Classification[J].IEEE Transactions on Information Theory,1967,IT-13(1):21-27.

共引文献120

1柴晓丽,张丽伟,管玉玲.基于HowNet自动文摘的研究[J].电脑编程技巧与维护,2009(S1):164-165. 被引量：1
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：27
3李良炎,何中市,易勇.基于词联接的语义分析原理及其算法[J].重庆大学学报（自然科学版）,2004,27(8):69-74. 被引量：2
4王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
5王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
6吴晨,缪建明,张全.跨语种信息检索中的文本比较及结果生成算法[J].计算机工程与应用,2005,41(29):11-15. 被引量：1
7韦向峰,张全.汉语动词连见的计算机处理规则研究[J].计算机应用研究,2006,23(1):37-40. 被引量：3
8苗传江.基于HNC句类体系的句子语义研究[J].语言文字应用,2006(1):126-133. 被引量：5
9林鸿飞,丁洪文,杨志豪,赵晶.基于概念和统计的问答系统实现机制[J].大连理工大学学报,2006,46(2):280-285. 被引量：4
10吴晨,张全.基于概念匹配的中文问答处理模型核心问题探讨[J].中文信息学报,2006,20(4):49-55. 被引量：2

同被引文献11

1徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：108
2LIU T,CHEN Z,ZHANG B Y,et al. Improving text classi- fication using local latent semantic indexing[ C ]//Proceed- ings of IEEE International Conference on Data Mining. 2004 : 162 - 169.
3YU H, HATZIVASSILOGIOU V. Towards answering opin- ion questions: Separating facts from opinions and identifying the polarity of opinion sentences [ C ]//Conference on EmPirical Methods in Natural Language Processing ( EMNLP). 2003 : 129 - 136.
4王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
5张玉峰,何超.基于潜在语义分析和HS-SVM的文本分类模型研究[J].情报理论与实践,2010,33(7):104-107. 被引量：9
6宋淑彩,庞慧,丁学钧.GA-SVM算法在文本分类中的应用研究[J].计算机仿真,2011,28(1):222-225. 被引量：13
7ZHONG Jiang,SUN Qigan,LI Xue,WEN Luosheng.A Novel Feature Selection Method Based on Probability Latent Semantic Analysis for Chinese Text Classification[J].Chinese Journal of Electronics,2011,20(2):228-232. 被引量：11
8崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：84
9范玉华,秦世引.基于潜在语义分析的场景分类优化决策方法[J].计算机辅助设计与图形学学报,2013,25(2):175-182. 被引量：10
10成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报（自然科学版）,2013,33(5):63-68. 被引量：14

引证文献1

1陈珂,柯文德,刘美,张良均.一种基于多类别信息的局部潜在语义分析算法研究[J].南京邮电大学学报（自然科学版）,2016,36(1):119-124. 被引量：2

二级引证文献2

1李惠富,陆光,景维鹏.文本分类中基于K-Sprinkling的特征提取方法[J].计算机工程,2017,43(12):141-146. 被引量：2
2孙小川,吴警,尹浩然,芦天亮.一种面向微博的突发事件触发词识别方法研究[J].中国人民公安大学学报（自然科学版）,2019,25(4):38-44. 被引量：1

1古丽娜孜,孙铁利.基于二叉树的多类SVM在Web文本分类中的应用研究[J].新疆大学学报（自然科学版）,2011,28(1):100-104. 被引量：2
2张超,侯青青,陶宏敏,李俊杰,邹威.基于句子相似度语句定位的文本作业检测技术[J].计算机光盘软件与应用,2013,16(4):278-278.
3彭禾.浅谈DOS EDIT的文本块选择[J].电脑爱好者,1994(8):7-7.
4郑勋灿,林仲达,邓琨.基于Rough集的web文本分类研究[J].微计算机信息,2009,25(27):180-181.
5王斌,朴顺姬,邵华清.基于粗糙集的KNN的WEB文本分类的研究[J].数字技术与应用,2011,29(8):55-55.
6徐春雨.基于RBF神经网络的Web文本分类的研究[J].电脑知识与技术,2011,7(5):3107-3108. 被引量：1
7牛强,王志晓,陈岱,夏士雄.基于KNN的Web文本分类方法的研究[J].计算机应用与软件,2007,24(10):210-211. 被引量：8
8阚言东,倪茂树,刘国庆.一种基于粗糙集的Web文本分类方法[J].计算机应用与软件,2009,26(8):153-155.
9薛慧芳.句子相似度计算初探[J].科技信息,2009(19):162-162. 被引量：2
10赵文娟.基于Hadoop的Web文本分类系统设计研究[J].兰州大学学报（自然科学版）,2014,50(6):892-896. 被引量：1

南京邮电大学学报（自然科学版）

2013年第1期

浏览历史

内容加载中请稍等...

基于改进BoS的Web文本分类研究被引量：1

参考文献11

二级参考文献31

共引文献120

同被引文献11

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进BoS的Web文本分类研究 被引量：1

参考文献11

二级参考文献31

共引文献120

同被引文献11

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进BoS的Web文本分类研究被引量：1