多模型加权融合的文本相似度计算被引量：7

Text similarity calculation based on multi model weighted fusion

下载PDF

导出

摘要目前传统的文本相似度方法大多数存在未考虑语义及结构信息,容易忽略文本特征细节信息等问题。针对上述问题,提出多模型加权融合的文本相似度计算算法。利用词频、词性、词句位置3个特征共同计算句子相似度;为发现文本的结构信息方面,提出分层池化IIG-SIF用于计算文本的相似程度;结合前两个环节的相似度模型构建一种线性加权模型,汇集两个算法使结果更为精确。实验结果表明,该算法能够提高准确率和召回率,在不同语种和粒度的数据集上均得到更优的实验结果。 Most of the current traditional text similarity methods fail to consider the semantic and structural information,and it is easy to ignore the details of the text features and other issues.Aiming at the above problems,a text similarity calculation algorithm based on multi-model weighted fusion was proposed.The three characteristics of word frequency,part of speech,and word and sentence position were used to jointly calculate sentence similarity.To find the structural information of the text,a hierarchical pooling IIG-SIF was proposed to calculate the similarity of the text.The similarity models of first two were combined to construct a linear weighting model,by which two algorithms were brought together to make the result more accurate.Experimental results show that the proposed algorithm can improve the accuracy and recall rate,and obtain better experimental results on data sets of different languages and granularities.

作者田红鹏马博冯健 TIAN Hong-peng;MA Bo;FENG Jian(College of Computer Science and Technology,Xi’an University of Science and Technology,Xi’an 710600,China)

机构地区西安科技大学计算机科学与技术学院

出处《计算机工程与设计》北大核心 2021年第11期3239-3245,共7页 Computer Engineering and Design

基金陕西省自然科学基础研究计划基金项目(2020JM-533)。

关键词文本相似度特征融合词移距离分层池化句向量 text similarity feature fusion word movement distance layered pooling sentence vector

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王春柳,杨永辉,邓霏,赖辉源.文本相似度计算方法研究综述[J].情报科学,2019,37(3):158-168. 被引量：85
2李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研究[J].计算机科学,2017,44(9):256-260. 被引量：58
3程国煜.《诗经》修辞同义词与同义并列复合词[J].汉字文化,2015(1):30-34. 被引量：1
4黄姝婧,张仰森.基于多特征融合的句子相似度计算方法[J].北京信息科技大学学报（自然科学版）,2017,32(5):45-49. 被引量：3
5翟社平,李兆兆,段宏宇,李婧,董迪迪.多特征融合的句子语义相似度计算方法[J].计算机工程与设计,2019,40(10):2867-2873. 被引量：14

二级参考文献35

1王宁.训诂学与汉语双音词的结构和意义[J].语言教学与研究,1997(4):11-22. 被引量：41
2王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
3何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
4赵臻,吴宁,宋盼盼.基于多特征融合的句子语义相似度计算[J].计算机工程,2012,38(1):171-173. 被引量：18
5刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
6程传鹏,吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学,2012,34(2):172-175. 被引量：27
7詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,40(6):199-202. 被引量：22
8刘运通,梁燕军.基于分段语义比较的语句相似度计算方法[J].计算机工程与设计,2013,34(7):2637-2640. 被引量：3
9李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：47
10姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：72

共引文献147

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
3周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
4赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
5洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：5
6吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
7杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：7
8谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：10
9康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：5
10张骥,张红梅,邵华,郑紫尧,李亮玉.基于全景数字仿真的变电站一键顺控测试技术[J].高电压技术,2023,49(S01):128-134. 被引量：4

同被引文献77

1宋颖毅,叶东升,王坤龙,葛志.无监督的问句相似度匹配方法[J].计算机应用研究,2020,37(S02):69-72. 被引量：2
2朱家彪.公众地理信息公共服务平台系统建设研究——以湖南省为例[J].测绘通报,2010(9):60-62. 被引量：22
3姚飞,纪磊,张成昱,陈武.实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J].现代图书情报技术,2011(4):77-81. 被引量：105
4林学民,王炜.集合和字符串的相似度查询[J].计算机学报,2011,34(10):1853-1862. 被引量：35
5毛先领,李晓明.问答系统研究综述[J].计算机科学与探索,2012,6(3):193-207. 被引量：60
6王明哲,张振利,徐彦,王富章,朱建生.铁路互联网售票系统的研究与实现[J].铁路计算机应用,2012,21(4):23-25. 被引量：24
7张玲.POI的分类标准研究[J].测绘通报,2012(10):82-84. 被引量：81
8曹闻,刘浩,李润生.一种改进的Hausdorff距离地图匹配方法[J].计算机工程与应用,2013,49(6):159-162. 被引量：3
9张建娥.基于多特征融合的中文文本关键词提取方法[J].情报理论与实践,2013,36(10):105-108. 被引量：17
10曾辉,徐海洲,钟茂生.基于主题和焦点的问句相似度计算方法[J].科学技术与工程,2014,22(6):207-210. 被引量：1

引证文献7

1张雪芳,杜奥宇,王先兰.基于多特征的安卓设备指纹生成算法研究[J].网络新媒体技术,2022,11(6):15-19.
2孙晓霞.融合语义和位置信息的兴趣点实体匹配方法[J].地理空间信息,2023,21(5):22-24. 被引量：2
3邹丽强,何月顺.多特征融合的文本相似度方法[J].现代电子技术,2023,46(11):103-108. 被引量：1
4熊文祥.基于云理论的铁路客票系统安全防护评估研究[J].科技创新与应用,2024,14(4):42-45.
5杜洁,李芹,潘媛,梁国迪.基于堆栈集成学习的文档隐含语义相似度判断算法[J].电子设计工程,2024,32(3):74-77.
6方义,齐鹤,陆鹏,张华,杨赓.基于人工智能技术的铁路电子公文数据智能化分析及关联方法研究[J].铁路计算机应用,2024,33(1):67-71. 被引量：4
7周朝阳,贺艳菊,夏岭梅,闵昭浩.融合词性与语义相关性的图书馆智能咨询系统问句相似性计算方法研究[J].情报探索,2024(5):1-8.

二级引证文献7

1沈源.人工智能在公文办理中的应用研究[J].互联网周刊,2024(13):66-68.
2尹春勇,沈子宁.基于交互式特征与多尺度特征的文本相似度研究[J].计算机技术与发展,2024,34(8):86-92.
3史天运,李新琴,代明睿,史维峰,李国华,杜文然.铁路自然语言大模型关键技术研究及应用展望[J].中国铁路,2024(7):7-14. 被引量：4
4符浩军,蒋秉川,陈星宇.利用多因子融合的多尺度点状地名匹配方法[J].地理空间信息,2024,22(12):34-37.
5周伟梁.基于POI数据的乌鲁木齐城市旅游便利性研究[J].地理空间信息,2024,22(12):65-68.
6SHI Tianyun,LI Xinqin,DAI Mingrui,SHI Weifeng,LI Guohua,DU Wenran,SHEN Meiying(Translated).Key Technologies and Application Prospects of Railway Natural Language Large Model[J].Chinese Railways,2024(2):11-20.
7杨斌,杨威,赵东波,解亚龙,尹逊霄,索宁.多行业综合交通体验工计价管理模型应用研究[J].铁道工程学报,2025,42(1):110-118.

1刘惠,陈春荣,徐秋程,杜军朝.空管问答机器人技术[J].指挥信息系统与技术,2021,12(5):32-37.
2张笑,孙素芬,魏清凤,罗长寿.基于BERT多特征融合的番茄问答模型研究[J].信息与电脑,2021,33(17):69-73. 被引量：1
3周子番,邱均平,魏开洋.从文献计量学到“五计学”:计量学方法的演化与发展[J].情报杂志,2021,40(10):171-178. 被引量：16
4亓海征,殷海双.基于时频图的改进LeNet-5网络轴承故障诊断[J].机械设计与制造工程,2021,50(10):54-58. 被引量：3
5杜睿山,张轶楠,田枫,王梅,李婷玉,张蕾,程有为,赵崇志.基于知识图谱的智能问答系统研究[J].计算机技术与发展,2021,31(11):189-194. 被引量：9
6陈志浩,杨小军.基于孪生网络多级注意特征融合目标跟踪算法[J].计算机技术与发展,2021,31(11):58-63. 被引量：6
7关忠,张强.浅析附图说明在提高专利检索效能中的应用[J].专利代理,2021(4):50-53.
8翁金塔,仇晶,张光华.面向推理的知识图谱表示学习方法综述[J].广州大学学报（自然科学版）,2021,20(3):80-89. 被引量：3
9李舒欣.建筑设计中空间组合研究[J].门窗,2021(21):95-96.
10黄思维,张俊勃,曾繁宏.适用于电力系统惯性秒级追踪的高效在线算法[J].高电压技术,2021,47(10):3519-3527. 被引量：8

计算机工程与设计

2021年第11期

浏览历史

内容加载中请稍等...

多模型加权融合的文本相似度计算被引量：7

参考文献5

二级参考文献35

共引文献147

同被引文献77

引证文献7

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

多模型加权融合的文本相似度计算 被引量：7

参考文献5

二级参考文献35

共引文献147

同被引文献77

引证文献7

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

多模型加权融合的文本相似度计算被引量：7