分阶段融合的文本语义相似度计算方法被引量：4

A Staged and Integrated Semantic Similarity Algorithm of Text

导出

摘要面向中文文本的信息检索,提出一种从句子、段落到文本整体分阶段进行的文本相似度计算方法。该方法结合文档的主题与应用范围,用语义加强的权重计算方法对特征词赋予相应的权重,并根据每个计算阶段的特点,分别融入对文本语义的计算因素,力求使中文文本的相似度计算结果更为准确。最后建立文本相似度计算系统,通过与传统算法的实验结果进行对比,证明改进后的算法可以取得更好的效果。 For Chinese text information retrieval, a staged and integrated similarity algorithm of text is proposed, which processes sentences, paragraphs and the whole document stage by stage. The algorithm combines the topic and application ranges of document, and the corresponding weight is given to the feature words via the weighted calculation method with the semantic enhancement. Moreover, these weights are integrated into the calculated factors of the text semantic with the characteristics of each calculation phase, respectively to reach the aim of finding a more accurate similarity calculation results for Chinese text similarity calculation. Finally, a text similarity computing system is built and the improved algo- rithm of the system achieves better experimental results comparing with the traditional algorithms.

作者马军红

机构地区西安外事学院工学院

出处《现代图书情报技术》 CSSCI 北大核心 2013年第10期20-26,共7页 New Technology of Library and Information Service

基金陕西省教育厅科学研究计划项目"基于实时嵌入式安全的双向序列加密方法研究"(项目编号:2013JK1146)的研究成果之一

关键词文本相似度信息检索语义相似度权重 Texts similarity Information retrieval Semantic similarity Term weight

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1赵辉,刘怀亮,范云杰.复杂网络理论在中文文本特征选择中的应用研究[J].现代图书情报技术,2012(9):23-28. 被引量：17
2陈涛,林杰.基于搜索引擎关注度的网络舆情时空演化比较分析——以谷歌趋势和百度指数比较为例[J].情报杂志,2013,32(3):7-10. 被引量：71
3王静帆.基于文本相似度的二阶段招聘信息检索[D].北京:清华大学,2007.
4谭慧琳,刘先锋.基于遗传算法的知识推理研究[J].电脑知识与技术,2011,7(11):7731-7733. 被引量：3
5路永和,李焰锋.多因素影响的特征选择方法[J].现代图书情报技术,2013(5):34-39. 被引量：3
6黎邦群.基于Mashup的特殊词快捷检索及检索建议[J].图书情报工作,2012,56(17):126-130. 被引量：4
7Duan Y X, Lei H. The Formal Definitions of Semantic Web Serv- ices and Satisfiability [ J ]. International Journal of Advancements in Computing Technology, 2012,4 ( 23 ) : 327 - 335.
8Lee M C. A Novel Sentence Similarity Measure for Semantic - based Expert Systems [ J ]. Expert Systems with Applications, 2011, 38(5) :6392 -6399.
9王蕊,冯登国,杨轶,苏璞睿.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012,23(2):378-393. 被引量：75
10刘兵.Web数据挖掘[M].北京:清华大学出版社,201l:113-119.

二级参考文献53

1张春玲.对布卢姆掌握学习理论的再认识[J].洛阳师范学院学报,2001,20(1):80-82. 被引量：22
2王学影,岩君芳,叶树亮,王晓娜.关节臂式坐标测量系统关键技术研究[J].中国计量学院学报,2010,21(1):12-15. 被引量：11
3李建婷.网络搜索引擎在科技查新中的应用[J].情报杂志,2011,30(S2):170-171. 被引量：2
4余春.国内图书馆新型OPAC的实践与思考——以深圳大学、厦门大学图书馆为例[J].图书馆学研究（应用版）,2010(4):59-62. 被引量：14
5耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
6肖磊,张阿卜,徐文进.用MATLAB求解TSP问题的一种改进遗传算法[J].厦门理工学院学报,2005,13(4):38-42. 被引量：17
7王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
8陈涛,孙茂松.基于SOM的语义词典自动构建实验研究[J].情报学报,2007,26(1):77-83. 被引量：5
9李勇,左志宏.目标代码混淆技术综述[J].计算机技术与发展,2007,17(4):125-127. 被引量：10
10蒋望东,林士敏.基于选择性集成的整数编码遗传算法及TSP问题求解[J].计算机与现代化,2007(5):38-40. 被引量：1

共引文献168

1黄科,袁启平,董薇,孙沂昆,亢勇,王天翔.基于1D CNN与XGBoost的恶意代码纹理检测[J].电视技术,2021,45(10):129-135.
2王振坡,王欣雅,张安琪,王丽艳.基于搜索引擎关注度的城市符号演变特征研究——以天津为例[J].城市发展研究,2020,27(2):111-117. 被引量：3
3张文,严寒冰,文伟平.一种Android恶意程序检测工具的实现[J].信息网络安全,2013(1):27-32. 被引量：7
4白金荣,王俊峰,赵宗渠,刘达富.基于敏感Native API的恶意软件检测方法[J].计算机工程,2012,38(13):9-12. 被引量：5
5陈曙,叶俊民,张帆.一种基于污点数据传播和无干扰理论的软件行为可信性分析模型[J].计算机科学,2013,40(5):184-188. 被引量：1
6张晗,刘双梅.中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例[J].现代图书情报技术,2013(6):30-35. 被引量：5
7黎邦群.手机图书馆用户参与采访研究[J].图书情报工作,2013,57(13):89-95. 被引量：5
8黄晓芳,黎邦群.书目检索建议与提示策略研究[J].图书馆学研究,2013(15):59-62.
9任李,潘晓中.基于对象语义的恶意代码检测方法[J].计算机应用研究,2013,30(10):3106-3109. 被引量：2
10安靖,杨义先,李忠献.路径条件驱动的混淆恶意代码检测[J].湖南大学学报（自然科学版）,2013,40(9):86-90. 被引量：3

同被引文献48

1许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
2余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
3Tan P, Steinbach M, Kumar V.数据挖掘导论[M].北京:人民邮电出版社,2011.
4KUMAR N. Approximate string matching algorithm [ J]. Inter- national Journal on Computer Science and Engineering, 2010, 2 (3): 641-644.
5KO Y, PARK J, SEO J. Improving text categorization using the importance of sentences [ J]. Information Processing and Man- agement, 2004, 40 (1): 65-79.
6SALTON G, YANG C S. On the specification of term value in automatic indexing [J]. Journal of Documentation, 1973, 29 (4) : 351-372.
7SATLON G, WONG A, YANG C. A vector space model for automatic indexing [ J]. Communications of ACM, 1975, 18 (11) : 613-620.
8MILNE D, WITIEN I. An effective, low-cost measure of se- mantic relatedness obtained from Wikipedia links [ C ] //Pro- ceedings of the 23th Association for the Advancement of Artifi- cial Intelligence, 2008: 25-30.
9WU Z, PALMER M. Verb semantics and lexical selection [ C] //Proceedings of the 32nd Annual Meeting of the Associa- tion for Computational Linguistics, New Mexico: Association for Computational Linguistics, 1994: 133-138.
10张乃岳,张学燕.基于个体词语相似度的定制化动态信息检索[C].中国中文信息学会信息检索与内容安全专业委员会.第四届全国信息检索与内容安全学术会议论文集(上),2008:5.

引证文献4

1滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
2郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
3杜坤,刘怀亮,王帮金.基于语义相关度的中文文本聚类方法研究[J].情报理论与实践,2016,39(2):129-133. 被引量：9
4黄思思.基于特征词权重变更的检索优化策略[J].情报科学,2016,34(7):70-75. 被引量：5

二级引证文献22

1李青,朱恒民,杨东超.微博网络中舆情话题传播演化模型[J].现代图书情报技术,2013(12):74-80. 被引量：22
2余本功,顾佳伟.基于Folksonomy和RDF的信息组织与表示[J].现代图书情报技术,2014(11):24-30. 被引量：4
3滕广青.Folksonomy模式中紧密型领域知识群落动态演化研究[J].中国图书馆学报,2016,42(4):51-63. 被引量：11
4滕广青,常志远,刘雅姝,赵汝南,张利彪.Folksonomy知识组织模式中领域知识动态演化规律研究[J].图书与情报,2016(4):96-101. 被引量：2
5翟姗姗,许鑫,夏立新.融合链接分析和内容分析视角的主题门户网站信息组织研究——以国际组织WHO为例[J].情报学报,2017,36(8):821-833. 被引量：3
6高强.基于向量空间的文本聚类算法[J].电子世界,2017,0(20):61-62. 被引量：1
7宋凯,李秀霞,赵思喆.基于CTM模型与K-means算法融合的文本聚类研究[J].情报理论与实践,2017,40(11):135-138. 被引量：16
8董苑,钱丽萍.基于语义词典和词频信息的文本相似度计算[J].计算机科学,2017,44(B11):422-427. 被引量：8
9Zhang Yongtang,Fan Bo.Non-SPF routing algorithm based on ordered semi-group preference algebra[J].The Journal of China Universities of Posts and Telecommunications,2017,24(6):14-23. 被引量：2
10桑海龙,李建中.基于数据挖掘的网络信息分析方法[J].智能计算机与应用,2018,8(1):183-187. 被引量：3

1谢人强,陈震.基于共同评分项和权重计算的推荐算法研究[J].计算机技术与发展,2016,26(9):69-72. 被引量：2
2邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32
3郑苑丹.一种基于最短路径优先的应用层组播算法[J].电脑知识与技术,2010,6(7):5290-5291.
4张鹏,王素格,李德玉.一种策略融合的跨语言文本情感倾向判别方法[J].中文信息学报,2016,30(2):32-40. 被引量：1
5向凌云,胡毅君,王伟征.一种基于低失真替换优先的文本隐写算法[J].计算机工程与应用,2015,51(15):102-106. 被引量：1
6褚镇飞,杨小康,张瑞,朱俊.视频自动标注系统中的文本对齐算法[J].微计算机信息,2010,26(24):147-149. 被引量：2
7汪培庄,李洪兴.fuzzy计算机的设计思想（Ⅱ）──知识包和思维处理器[J].北京师范大学学报（自然科学版）,1995,31(3):303-307.
8刘明皓,薛丽霞,王佐成,汪红群.基于GIS的山地城市职能空间扩散分析[J].重庆邮电学院学报（自然科学版）,2005,17(4):487-490. 被引量：3
9石菊松,徐瑞春,石玲,杨为民,吴树仁.基于RS和GIS技术的清江隔河岩库区滑坡易发性评价与制图[J].地学前缘,2007,14(6):119-128. 被引量：28

现代图书情报技术

2013年第10期

浏览历史

内容加载中请稍等...

分阶段融合的文本语义相似度计算方法被引量：4

参考文献10

二级参考文献53

共引文献168

同被引文献48

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

分阶段融合的文本语义相似度计算方法 被引量：4

参考文献10

二级参考文献53

共引文献168

同被引文献48

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

分阶段融合的文本语义相似度计算方法被引量：4