期刊文献+

基于LaBSE的藏文信息检索模型研究

Study on the Tibetan Information Retrieval Model based on LaBSE
在线阅读 下载PDF
导出
摘要 随着藏文数字资源和使用需求的增长,如何准确地检索到用户所需信息成为一项重要挑战。为解决藏文检索中查询信息和文档语义匹配问题,文章首先利用LaBSE模型从藏文文档中提取特征信息,然后将查询信息和特征信息一同输入模型,通过掩码语言模型和翻译语言模型等预训练任务,学习不同藏文音节字在不同语境下的深层语义信息;最后进行微调完成基于LaBSE的藏文信息检索模型的构建。实验结果表明,文章构建的藏文信息检索模型准确率达到93.57%,相比基于BERT的藏文信息检索模型准确率提高了6.37%,表明了文章构建的藏文信息检索模型能够更有效地匹配查询信息和藏文文档,为准确检索藏文资源问题提供了一种参考。 With the growth of Tibetan resources and usage demand,it has become an important challenge to retrieve the information required by users accurately.To solve the problem of query information and semantic matching between documents in Tibetan retrieval,a Tibetan information retrieval model based on LaBSE is proposed in this paper.For constructing the model,a LaBSE model was first used to extract feature information from Tibetan documents and then input the query information and feature information into the model together.Through pre-training tasks such as the mask language model and translation language model,the model learned the deep semantic information of different Tibetan characters from different contexts.Finally,fine-tuning was carried out to complete the construction of the model.The experimental results show that the accuracy of the Tibetan information retrieval model constructed in this paper reaches 93.57%,which is 6.37%higher than that of the Tibetan information retrieval model based on BERT,indicating that our model can more effectively match the query information and Tibetan documents,which provides a reference for accurate retrieval of Tibetan resources.
作者 严李强 吴瑜 拉巴顿珠 梁炜恒 YAN Liqiang;WU Yu;Lhakpa-Dondrub;LIANG Weiheng(School of Information Science and Technology,Tibet University,Lhasa 850000,China)
出处 《高原科学研究》 CSCD 2024年第3期110-116,共7页 Plateau Science Research
基金 国家自然科学基金项目(62406256) 西藏大学研究生高水平人才培养计划项目(2021-GSP-B031,2022-GSP-S105).
关键词 藏文 信息检索模型 深度学习 LaBSE Tibetan information retrieval model deep learning LaBSE
  • 相关文献

参考文献8

二级参考文献42

  • 1才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020,34(5):44-49. 被引量:4
  • 2江荻.现代藏语动词的句法语义分类及相关语法句式[J].中文信息学报,2006,20(1):37-43. 被引量:16
  • 3潘以锋.基于Lucene的网站全文检索系统的开发[J].广西教育学院学报,2006(5):63-66. 被引量:7
  • 4The Apache Software Foundation, Welcome to Lueene [EB/OL]. http://lucene, apache, org, 2010- 06-18.
  • 5Martiin Koster. A Standard for Robot Exclusion[EB/ OL]. http ://www. robotstxt, org/orig, html, 2010-08- 15.
  • 6DanielJurafsky,JamesH.Martin著,冯志伟,孙乐翻译.自然语言处理综论[M].电子工业出版社,2005.
  • 7孙茂松,陈群秀.中国计算语言学研究前沿进展(20072009)[M].清华大学出版社,2009.
  • 8吉太加.现在藏文语法通论[M].甘肃民族出版社.2000.
  • 9色多五世罗桑崔臣嘉措.藏文文法根本颂色多氏大疏[M],民族出版社,2007.
  • 10格桑居冕,格桑央京.实用藏文文法教程[M].四川出版集团,四川民族出版社.2008.

共引文献22

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部