基于XML文档的藏文网页倒排索引的研究与实现被引量：2

Research and Implementation of Inverted Index of Tibetan Web Pages Based on XML Documents

下载PDF

导出

摘要如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它以XML文档的标签内容作为索引对象,定义了文档和文档属性等概念,采用C#语言对文藏文网页正文构建倒排索引的关键技术和实现方法进一步的阐述,实现了基于XML文档的藏文网页倒排索引数据库的底层实现,提供了技术参考。利用这种方法藏文搜索引擎中信息检索的速度和准确率有所提高。 As the Tibetan search engine is a commonly used information retrieval tool and channel,and inverted index is one of the core technology of search engines,inverted index directly affects the search results and response speed of the search engine.The paper introduces a self-developed Tibetan web page inverted index system,which uses the tag content of the XML document as the index object,defines the concept of the document and the document attribute,and constructs the inverted index of the text in C#Language.The key technology and the implementation method of the index are further elaborated,and the bottom implementation of the inverted index database based on the XML document is achieved,which provides technical reference for relevant research.Through this method,the efficiency and accuracy of information retrieval in Tibetan search engines have been effectively improved.

作者扎西拉旦安见才让

机构地区青海民族大学计算机学院

出处《软件工程》 2017年第6期12-14,共3页 Software Engineering

基金青海省科技厅(2016-ZJ-Y04)项目资助

关键词 XML 藏文网页倒排索引 XML Tibetan web pages inverted index

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1安见才让.藏文搜索引擎系统中网页自动摘要的研究[J].微处理机,2010,31(5):77-80. 被引量：3

二级参考文献4

1陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
2徐晓丹.中文网页自动摘要系统的研究[J].计算机与现代化,2006(9):120-122. 被引量：2
3傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
4陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51

共引文献2

1安见才让,拉毛措,孙琦龙.互联网藏文信息舆情分析系统设计[J].微处理机,2017,38(2):56-58. 被引量：5
2李维,闫晓东,解晓庆.基于改进TextRank的藏文抽取式摘要生成[J].中文信息学报,2020,34(9):36-43. 被引量：11

同被引文献72

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3索南尖措.藏语动词的黏着性及屈折性变化研究[J].西藏大学学报（社会科学版）,2013,28(4):70-75. 被引量：2
4德吉梅朵.面向藏语语料库建设的数量词的分类研究[J].剑南文学（经典教苑）（下）,2013(1):228-229. 被引量：1
5王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
6罗圣仪,江虹.藏文轻印刷系统[J].计算机世界月刊,1993(7):73-73. 被引量：2
7高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：35
8扎西次仁.藏文的排序规则及其计算机自动排序的实现[J].中国藏学,1999(4):128-135. 被引量：16
9江荻,董颖红.藏字叠加结构线性处理统计分析[J].中文信息,1994,11(4):44-46. 被引量：11
10彭寿全,黄可,万国根,袁文君.外挂式藏汉英混合处理系统[J].中文信息学报,1994,8(2):47-53. 被引量：3

引证文献2

1高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：7
2严李强,吴瑜,拉巴顿珠,梁炜恒.基于LaBSE的藏文信息检索模型研究[J].高原科学研究,2024,8(3):110-116.

二级引证文献7

1张瑞.藏文在线评论情感分析研究综述[J].智库时代,2018(35):206-208. 被引量：2
2头旦才让,尼玛扎西.改革开放以来西藏藏文信息化发展综述[J].西藏研究,2018(5):182-187. 被引量：5
3严李强,周建朋,冯郅皓.藏文词库自扩充学习算法的设计与实现[J].高原科学研究,2019,3(3):106-112. 被引量：1
4苗晗,车文刚,朱倩倩.一种藏文雕刻字体多样性表达方法[J].信息技术,2020,44(9):129-132.
5马爽.中国少数民族文字网络搜索引擎关键技术研究[J].无线互联科技,2020,17(13):84-86. 被引量：1
6尕藏才让.不同自然语言的信息处理方法差异概述--以藏汉文本检查技术为例[J].计算机应用文摘,2022,38(3):97-100.
7群诺,格勒尼玛,曹玺,达瓦追玛,洛桑嘎登.《自然语言处理》课程教学模式改革与探索——以西藏大学为例[J].高原科学研究,2024,8(3):125-132.

1洛松求培,安见才让.基于文本密度的藏文网页正文提取方法[J].计算机时代,2017(8):46-47. 被引量：3

软件工程

2017年第6期

浏览历史

内容加载中请稍等...

基于XML文档的藏文网页倒排索引的研究与实现被引量：2

参考文献1

二级参考文献4

共引文献2

同被引文献72

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于XML文档的藏文网页倒排索引的研究与实现 被引量：2

参考文献1

二级参考文献4

共引文献2

同被引文献72

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于XML文档的藏文网页倒排索引的研究与实现被引量：2