关联模式挖掘与词向量学习融合的伪相关反馈查询扩展被引量：4

Pseudo-Relevance Feedback Query Expansion Based on the Fusion of Association Pattern Mining and Word Embedding Learning

下载PDF

导出

摘要针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能. In order to solve the problems of query topic drift and word mismatch in natural language processing,an al⁃gorithm of association pattern mining and rule expansion based on CSC(Copulas-based Support and Confidence)frame⁃work is proposed.The association patterns based on statistical analysis are fused with the word embedding with context se⁃mantic information,and a pseudo-relevance feedback query expansion model is presented based on the fusion of association pattern mining and word embedding learning.In this model,the rule expansion terms are mined from the pseudo-relevance feedback document set,and the word vectors are obtained by word embedding learning training of the initial document set.The vector similarity between the rule expansion term and original query is calculated,and the rule expansion terms whose vector similarity is not lower than the threshold are extracted as the final expansion terms.The experimental results show that the proposed expansion model can effectively reduce the problems of query topic drift and word mismatch,improving the performance of information retrieval.Compared with the existing query expansion methods based on association pattern and word embedding,the average increase of the MAP(Mean Average Precision)of the proposed expansion model is up to 17.52%.The expansion model in this paper is more effective for short queries.The proposed mining method can be used in other text mining tasks and recommendation systems to improve their performance.

作者黄名选 HUANG Ming-xuan(Guangxi Key Laboratory of Cross-border E-commerce Intelligent Information Processing,Guangxi University of Finance and Economics,Nanning,Guangxi 530003,China;School of Information and Statistics,Guangxi University of Finance and Economics,Nanning,Guangxi 530003,China)

机构地区广西跨境电商智能信息处理重点实验室(广西财经学院) 广西财经学院信息与统计学院

出处《电子学报》 EI CAS CSCD 北大核心 2021年第7期1305-1313,共9页 Acta Electronica Sinica

基金国家自然科学基金(No.61762006)。

关键词自然语言处理信息检索文本挖掘词嵌入查询扩展 natural language processing information retrieval text mining word embedding query expansion

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865. 被引量：70
2黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展[J].小型微型计算机系统,2017,38(8):1783-1791. 被引量：12
3黄名选.基于加权关联模式挖掘的越英跨语言查询扩展[J].情报学报,2017,36(3):307-318. 被引量：12
4黄名选,蒋曹清.基于项权值排序挖掘的跨语言查询扩展[J].电子学报,2020,48(3):568-576. 被引量：11
5黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036. 被引量：11
6许侃,林原,曲忱,徐博,林鸿飞.专利查询扩展的词向量方法研究[J].计算机科学与探索,2018,12(6):972-980. 被引量：12
7张书波,张引,张斌,孙达明.基于Copulas框架的混合式查询扩展方法[J].计算机科学,2016,43(S1):485-488 496. 被引量：4
8张剑,屈丹,李真.基于词向量特征的循环神经网络语言模型[J].模式识别与人工智能,2015,28(4):299-305. 被引量：41

二级参考文献42

1黄名选,严小卫,张师超.查询扩展技术进展与展望[J].计算机应用与软件,2007,24(11):1-4. 被引量：53
2Schwenk H. Continuous Space Language Models. Computer Speech and Language, 2007, 21 (3) : 492-518.
3Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistie Language Model. Journal of Machine Learning Research, 2003, 3 : 1137-1155.
4Mikolov T, Karafiett M, Burger L, et al. Recurrent Neural Network Based Language Model//Proc of the 11 th Annual Conference of the International Speech Communication Association. Makuhari, Japan, 2010:1045-1048.
5Mikolov T, Kombrink S, Burget L, et al. Extensions of Recurrent Neural Network Language Model// Proc of the IEEE International Conference on Acoustics , Speech and Signal Processing . Prague ,Czech Republic, 2011 : 5528-5531.
6Bengio Y, Simard P, Frasconi P. Learning Long-Term Dependen- cies with Gradient Descent Is Difficult. IEEE Trans on Neural Net- works, 1994, 5(2): 157-166.
7Son L H, Allauzen A, Yvon F. Measuring the Influence of Long Range Dependencies with Neural Network Language Models//Prec of the NAACL-HLT Workshop : Will We Ever Really Replace the N- gram Model.'? On the Future of Language Modeling for HLT. Man- treal, Canada, 2012:1-10.
8Martens J, Sutskever I. Learning Recurrent Neural Networks with Hessian-Free Optimization [ EB/OL ]. [ 2014 - 02 - 10 ]. http:// www. icml-2011, org/papers/532_icmlpaper, pdf.
9Sundermeyer M, Schltlter R, Ney H. LSTM Neural Networks for Lan- guage Modeling[EB/OL]. [2014-02-10]. http://www-i6, informatik. rwth- aachen, de/publications/download/820/Sundermeycr - 2012. pdf.
10Shi Y, Wiggers P, Jonker C M. Towards Recurrent Neural Networks Language Models with Linguistic and Contextual Features//Proe of the 13th Annual Conference of the International Speech Communica- tion Association. Portland, USA, 2012:1664-1667.

共引文献134

1姚冬磊,赵晓鹏,卫耀伟.同义词挖掘及表示研究[J].福建电脑,2010,26(3):44-44.
2姚冬磊,赵晓鹏,卫耀伟.面向信息检索的量化本体学习[J].软件导刊,2010(8):42-43.
3刘建荣,翟雪莱,赵晓鹏.本体概念自动获取研究[J].软件导刊,2010,9(9):14-15.
4支凤麟,徐炜民.基于主题的个性化查询扩展模型[J].计算机工程与设计,2010,31(20):4471-4475. 被引量：5
5冯平,黄名选.特征词抽取和相关性融合的伪相关反馈查询扩展[J].现代图书情报技术,2011(1):52-56. 被引量：6
6吴越,周安民,丁雪峰,胡勇.运用查询扩展技术的网民言论与舆论话题相关性研究[J].计算机应用研究,2011,28(3):1145-1147.
7武玉刚,秦勇,宋继光,杨忠明.基于关联规则的入侵检测算法研究综述[J].计算机工程与设计,2011,32(3):834-838. 被引量：7
8吕桃霞,刘培玉.一种基于矩阵的强关联规则生成算法[J].计算机应用研究,2011,28(4):1301-1303. 被引量：17
9黄名选,马瑞兴,兰慧红.面向查询扩展的特征词频繁项集挖掘算法[J].现代图书情报技术,2011(4):48-51. 被引量：1
10马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6

同被引文献40

1王雯,冯璇罡.Zigbee技术在配电自动化系统中的应用[J].电子技术（上海）,2021,50(11):90-91. 被引量：4
2徐建民,王平.小型中文信息检索测试集的构建与分析[J].情报杂志,2009,28(1):13-16. 被引量：13
3李锐,王斌.一种基于作者建模的微博检索模型[J].中文信息学报,2014,28(2):136-143. 被引量：8
4程道卫,戴诗容.配电自动化系统故障智能检测技术探讨[J].自动化与仪器仪表,2018,0(12):155-158. 被引量：4
5闫蓉,高光来.基于检索结果排序的伪相关反馈[J].计算机应用,2016,36(8):2099-2102. 被引量：1
6石磊,陶永才,李俊艳,卫琳.个性化微博实时推荐模型研究[J].小型微型计算机系统,2016,37(9):1910-1914. 被引量：6
7韩中元,杨沐昀,孔蕾蕾,齐浩亮,李生.基于词汇时间分布的微博查询扩展[J].计算机学报,2016,39(10):2031-2044. 被引量：10
8闫蓉,高光来.基于伪文档的伪相关反馈方法[J].中文信息学报,2016,30(6):156-163. 被引量：2
9刘蕾,于春玲,赵平.图文信息对消费者互动行为及品牌关系的影响[J].管理科学,2018,31(1):90-100. 被引量：17
10郑伟,侯宏旭,武静.贝叶斯网络在信息检索中的应用[J].情报科学,2018,36(6):136-141. 被引量：9

引证文献4

1张雄涛,甘明鑫,李硕.多粒度关系融合的微博信念网络检索模型[J].管理科学,2022,35(5):67-79.
2黄庆祥,王坚,万文承,徐杰.配电自动化系统安全管理模型研究[J].自动化仪表,2023,44(2):97-101. 被引量：3
3胡文浩,罗景,涂新辉.面向稠密检索的伪相关反馈方法[J].计算机应用,2023,43(4):1036-1042. 被引量：2
4杜丽涛.基于区块链的隐私预算管理模型研究[J].云南民族大学学报（自然科学版）,2023,32(4):515-519. 被引量：1

二级引证文献6

1李浩然,佘伊伦,王子滔.一种基于卷积神经网络的配电网主站告警窗口的图像识别方法[J].电子器件,2023,46(3):836-840. 被引量：2
2赵铁柱,林伦凯,杨秋鸿.基于查询语义特性的稠密文本检索模型[J].计算机应用研究,2024,41(5):1388-1393.
3丁兰.建筑施工材料成本控制的现实困境及解决策略研究[J].上海建设科技,2024(2):135-139.
4贾勇晨,罗大伟.配电自动化中的数据分析与预测维护策略[J].今日自动化,2024(6):130-131.
5周信.配电自动化系统中的安全防护机制设计与实现研究[J].光源与照明,2024(7):183-185.
6刘军平,孙医贵,朱强,胡新荣,彭涛,姚迅,王帮超.基于知识图谱的零样本文档检索伪查询生成[J].软件导刊,2024,23(11):47-52.

1黄名选,蒋曹清,卢守东.基于词嵌入与扩展词交集的查询扩展[J].数据分析与知识发现,2021,5(6):115-125. 被引量：3
2洪学婷,张宏梅,张业臣.Airbnb平台的使用意愿与使用行为——对技术接受模型的扩展[J].地域研究与开发,2021,40(4):91-95. 被引量：9
3刘壮,刘畅,Wayne Lin,赵军.用于金融文本挖掘的多任务学习预训练金融语言模型[J].计算机研究与发展,2021,58(8):1761-1772. 被引量：10
4陆丁天,张志远.情感子句预测与原因子句提取方法[J].计算机工程与设计,2021,42(8):2381-2386. 被引量：1
5陈奥琳,秦婧雯.检察业务数据分析研判会商机制的运行与完善[J].中国检察官,2021(13):74-76. 被引量：2
6叶秋芸.CT低剂量扫描技术在新冠肺炎筛查中的应用分析[J].影像技术,2021,33(4):54-57.
7吴杭鑫,张云华.基于词嵌入和自注意力机制的方面提取算法[J].智能计算机与应用,2021,11(4):25-29.
8曲琳琳.查询翻译方法研究——以汉英跨语言信息检索为例[J].情报科学,2021,39(8):132-138. 被引量：4
9周涛,陆惠玲,任海玲,霍兵强.基于粗糙集的属性约简算法综述[J].电子学报,2021,49(7):1439-1449. 被引量：31
10徐歌,方瑞霞,汪雅君.汉英不平衡双语者翻译方向不对称性研究--来自英汉双语句子翻译任务的证据[J].华侨大学学报（哲学社会科学版）,2021(4):157-164.

电子学报

2021年第7期

浏览历史

内容加载中请稍等...

关联模式挖掘与词向量学习融合的伪相关反馈查询扩展被引量：4

参考文献8

二级参考文献42

共引文献134

同被引文献40

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

关联模式挖掘与词向量学习融合的伪相关反馈查询扩展 被引量：4

参考文献8

二级参考文献42

共引文献134

同被引文献40

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

关联模式挖掘与词向量学习融合的伪相关反馈查询扩展被引量：4