文本相似度计算方法研究综述被引量：79

Review of Studies on Text Similarity Measures

导出

摘要【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity’or‘lexical similarity’"并限定文献类型进行检索,最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系,文本相似度计算方法可分为4类:基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中,基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心,未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。 [Objective] This paper analyzes the popular text similarity measures and discusses their latest developments.[Coverage] We retrieved 69 key articles from CNKI and Web of Science databases by searching ＂TI： ‘text similarity＇ or ‘semantic similarity＇ or ‘lexical similarity＇＂ in Chinese and English respectively. [Methods] We systematically reviewed the text similarity measures focusing on their basic concepts, characteristics and future directions. [Results]There were four types of text similarity measures： String-based, Corpus-based, Knowledge-based and others. Measures based on the neural network, Knowledge-based measures and inter-disciplinary measures could be the future research directions. [Limitations] We did not discuss the applications of those measures. [Conclusions] This paper is a comprehensive review of text similarity measure research.

作者陈二静姜恩波

机构地区中国科学院成都文献情报中心中国科学院大学

出处《数据分析与知识发现》 CSSCI CSCD 2017年第6期1-11,共11页 Data Analysis and Knowledge Discovery

关键词文本相似度语义相似度本体词袋模型神经网络 Text Similarity Semantic Similarity Ontology Bag of Words Model Neural Network

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献28

1彭丽针,吴扬扬.基于维基百科社区挖掘的词语语义相似度计算[J].计算机科学,2016,43(4):45-49. 被引量：9
2边振兴.WordNet中概念语义相似度IC参数模型研究[J].计算机工程与应用,2011,47(19):128-131. 被引量：8
3李慧.词语相似度算法研究综述[J].现代情报,2015,35(4):172-177. 被引量：17
4刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
5刘萍,陈烨.词汇相似度研究进展综述[J].现代图书情报技术,2012(7):82-89. 被引量：16
6郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
7魏韡,向阳,陈千.计算术语间语义相似度的混合方法[J].计算机应用,2010,30(6):1668-1670. 被引量：7
8王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：99
9秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
10葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66

二级参考文献426

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：44
3刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
4王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
5郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
6王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
7张涛,杨尔弘.基于上下文词语同现向量的词语相似度计算[J].电脑开发与应用,2005,18(3):41-43. 被引量：8
8张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
9易丽萍,竹勇,雷小春.知网在词语相似度计算方面的应用[J].信息技术与信息化,2005(1):24-26. 被引量：11
10刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37

共引文献947

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：1
2贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
3黎姿,潘红,马雪,赵慧.《更路簿》地名翻译传播在百度百科平台中的机遇与挑战[J].现代英语,2024(3):109-111.
4龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
5孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
6熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
7臧国全,张凯亮,肖洋,贾瑞莹.数据隐私风险的识别与消减——以医疗数据为例[J].情报学进展,2024(1):205-246.
8张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
9张兆滨,王素格,陈鑫,赵琳玲,王典.阅读理解中观点类问题的扩展研究[J].中文信息学报,2020(6):89-96. 被引量：2
10马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1

同被引文献745

1王宏宇,许潇,周育伟,杨朝红,纪伯公.基于军事领域知识图谱的智能问答系统设计与实现[J].装甲兵学报,2022(2):87-94. 被引量：6
2徐荣,张凤娟,宋朝钦.基于医院智慧后勤平台的综合维修全流程管理的探索与实践[J].中国数字医学,2021,16(10):56-60. 被引量：9
3宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
4陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：13
5刘河庆,梁玉成.政策内容再生产的影响机制——基于涉农政策文本的研究[J].社会学研究,2021(1):115-136. 被引量：53
6宋颖毅,叶东升,王坤龙,葛志.无监督的问句相似度匹配方法[J].计算机应用研究,2020,37(S02):69-72. 被引量：2
7胡雨晴,纪明宇,王晨龙.基于依存句法的句子相似度计算方法[J].智能计算机与应用,2020(4):113-118. 被引量：2
8白臻.工程项目招投标围标串标防范对策研究[J].中国科技投资,2020(5):179-180. 被引量：1
9刘超朋.平行语料库概述[J].燕山大学学报（哲学社会科学版）,2007,8(S1):120-121. 被引量：10
10黄少安,张岗.中国上市公司股权融资偏好分析[J].经济研究,2001,36(11):12-20. 被引量：976

引证文献79

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：1
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
3吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
4谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：10
5裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
6廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
7康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：5
8黄梦龙.基于分词的天地图福建多源POI重复检测方法[J].地理空间信息,2018,16(2):51-53. 被引量：2
9李琳,李辉.一种基于概念向量空间的文本相似度计算方法[J].数据分析与知识发现,2018,2(5):48-58. 被引量：22
10王峰,林丽珊,刘毅.基于群组平台知识圈的精准信息推荐[J].现代情报,2018,38(7):74-80. 被引量：2

二级引证文献441

1张殿元,余传明.基于知识增强与多模态融合的医疗视觉问答模型[J].数据分析与知识发现,2024,8(8):226-239.
2严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
3王劲,孙瑞英.主题聚类视域下地方公共数据管理政策完备性分析[J].知识管理论坛,2024(1):65-78.
4周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
5赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
6邓矜婷.同案同判中同案认定标准的可计算化研究[J].法制与社会发展,2024,30(5):205-224.
7孙海波.类案检索在何种意义上有助于同案同判?[J].清华法学,2021,15(1):79-97. 被引量：54
8吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
9杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：7
10谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：10

1白如江,冷伏海,廖君华.一种基于语义组块特征的改进Cosine文本相似度计算方法[J].数据分析与知识发现,2017,1(6):56-64. 被引量：1
2耿小强.HDTV的现状和未来[J].世界科学,1994,16(8):36-38.
3李致洁.新一代电力电子技术的现状和未来[J].电子学报,1989,17(4):88-96.
4晓真.路甬谈中国科技的现状和未来[J].科学大观园,2000(6):18-19.
5赵梓森.光纤通信的现状和未来[J].电信科学,1990,6(4):2-7.
6赵殳.电子设备热设计的现状和未来[J].电子机械工程,1991(3):28-36. 被引量：2
7屈昀.证明不等式的一种重要方法[J].高等函授学报（哲学社会科学版）,2005,18(S1):257-259.
8白薇.探寻解决问题的不同方法,丰富学生的创新思维[J].新课程（小学）,2014,0(3):80-80.
9何正波.导课在生物教学中的应用[J].学园,2014,0(17):147-147.
10张爱华,周崇伦,熊国骏,张惠奇,潘建华.两种不同方法对急性有机磷农药中毒治疗效果的对比分析[J].当代医师,1997,2(8):53-54.

数据分析与知识发现

2017年第6期

浏览历史

内容加载中请稍等...

文本相似度计算方法研究综述被引量：79

参考文献28

二级参考文献426

共引文献947

同被引文献745

引证文献79

二级引证文献441

相关作者

相关机构

相关主题

浏览历史

文本相似度计算方法研究综述 被引量：79

参考文献28

二级参考文献426

共引文献947

同被引文献745

引证文献79

二级引证文献441

相关作者

相关机构

相关主题

浏览历史

文本相似度计算方法研究综述被引量：79