期刊文献+

文本相似度计算方法研究综述 被引量:79

Review of Studies on Text Similarity Measures
原文传递
导出
摘要 【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity’or‘lexical similarity’"并限定文献类型进行检索,最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系,文本相似度计算方法可分为4类:基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中,基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心,未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。 [Objective] This paper analyzes the popular text similarity measures and discusses their latest developments.[Coverage] We retrieved 69 key articles from CNKI and Web of Science databases by searching "TI: ‘text similarity' or ‘semantic similarity' or ‘lexical similarity' " in Chinese and English respectively. [Methods] We systematically reviewed the text similarity measures focusing on their basic concepts, characteristics and future directions. [Results]There were four types of text similarity measures: String-based, Corpus-based, Knowledge-based and others. Measures based on the neural network, Knowledge-based measures and inter-disciplinary measures could be the future research directions. [Limitations] We did not discuss the applications of those measures. [Conclusions] This paper is a comprehensive review of text similarity measure research.
出处 《数据分析与知识发现》 CSSCI CSCD 2017年第6期1-11,共11页 Data Analysis and Knowledge Discovery
关键词 文本相似度 语义相似度 本体 词袋模型 神经网络 Text Similarity Semantic Similarity Ontology Bag of Words Model Neural Network
  • 相关文献

参考文献28

二级参考文献426

共引文献947

同被引文献745

引证文献79

二级引证文献441

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部