一种增量倒排索引结构的设计与实现被引量：6

Design and Implementation of an Incremental Inverted Index Framework

下载PDF

导出

摘要针对主题爬行器获取网页更新速度快的特点,提出一种用于网络搜索引擎的增量索引结构.在建立倒排索引时,每个词项的记录表以链接块的形式存放于倒排索引文件中,每次新分配的块大小递增.该索引结构解决了倒排索引连续存储所带来的难以更新问题.实验结果表明,与支持实时更新的传统链表式存储方式相比,这种索引结构能提供更高效的检索,采用以空间换时间的方法有效地提高了索引的更新效率. In the present paper is proposesd an incremental index structure used in web search engine in order to deal with the high update frequency of the web pages crawled by domain-specific crawler. In the inverted index structure, the posting list of each term is partitioned into linked blocks, whose sizes form an arithmetical series. The incremental index structure resolves the problem of document update, which is expensive in inverted index of continuous storage, and experimental results show that it provides much higher retrieval efficiency than naive linked list structure, which also supports real-time update. The space-for-time approach effectively raises the update rate of index.

作者王冬左万利赫枫龄彭涛张长利

机构地区吉林大学计算机科学与技术学院吉林大学符号计算与知识工程教育部重点实验室

出处《吉林大学学报（理学版）》 CAS CSCD 北大核心 2007年第6期953-958,共6页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:60373099) 教育部"符号计算与知识工程"重点实验室项目基金(批准号:93K-17) 吉林省科技发展计划项目基金(批准号:20070533)

关键词主题式搜索引擎增量倒排索引实时更新 domain-specific search engine incremental inverted index real-time update

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Chiueh Tzi-cker, HUANG Lan. Efficient Real-time Index Updates in Text Retrieval Systems [ R ]. New York: Suny-Stony Brook, 1999.
2王智强,刘建毅.一种实时更新索引结构的设计与实现[J].计算机系统应用,2005,14(10):79-82. 被引量：8
3Lester N, Moffat A, Zobel J. Fast On-line Index Construction by Geometric Partitioning [ C ]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management. Bremen, Germany: ACM Press, 2005: 776-783.
4Lim L, WANG Min, Sriram Padmanabhan. Dynamic Maintenance of Web Indexes Using Landmarks [ C ]//Proceedings of the 12th International Conference on World Wide Web. Budapest, Hungary : ACM Press, 2003 : 102-111.
5张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
6Hatcher E, Gospodnetic O. Lucene in Action [ M ]. Greenwich: Manning Publications, 2004 : 404-405.
7赫枫龄,左万利,张雪松.高性能网页索引器JU_Indexer的实现[J].吉林大学学报（理学版）,2006,44(1):50-56. 被引量：4
8李凯,赫枫龄,左万利.PageRank-Pro——一种改进的网页排序算法[J].吉林大学学报（理学版）,2003,41(2):175-179. 被引量：18

二级参考文献29

1张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
2吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
3M. Araujo, G. Navarro, and N. Ziviani. Large text searching allowing error. In Pro. WSP'97, pages 2-20, Valparaiso, Chile, 1997. Carleton Universily Press.
4Gonnet, G.H. et al. New indices for text: PAT trees and PAT arrays, Information Relneval: Data Structure and Algorithms (Frakes, W.B. and Baeza -Yates, R.A. ( eds. ) ), Prentice - Hall, New Jersey,pp. 66-82, 1992.
5C. Faloutsos, S. Christodoulakis. Description and performance analysis of signature file methods.ACM TOIS, 5(3) :237 -257, 1987.
6C. Faloutsos and R. Chan. Fast text access methods for optical and large magnetic disks:design and performance comparison. In Proc. Of VLDB'88, pages 280 -293, Los Angeles, CA, USA, 1988.
7Ricardo Baeza -Yates. Modem Information Retrieval. New York. ACM Press, 1999:191 -198.
8HUANG De-gen, ZHU He-he, WANG Kun-lun, et al. Chinese automatic words segmentation based on maximum matching and second-maximum matching [J]. Journal of Dalian University of Technology, 1999, 39(6): 831-835. (黄德根, 朱和合, 王昆仑, 等. 基于最长次长匹配的
9Manber Udi, Gene Myers. Suffix arrays: a new method for on-line string searches [J]. SIAM Journal on Computing, 1993, 22(5): 935-948.
10Mikio Yamamoto, Kenneth Church. Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus [J]. Association for Computational Linguistics, 2000, 27(1): 1-30.

共引文献40

1郭琦娟,陈通照.全文检索系统中动态更新索引结构的设计与实现[J].计算机工程与科学,2006,28(z2):18-20.
2原福永,褚蓓蓓.一种基于超链接结构的向量空间模型改进算法[J].中文信息学报,2005,19(4):68-71.
3赫枫龄,左万利,张雪松.高性能网页索引器JU_Indexer的实现[J].吉林大学学报（理学版）,2006,44(1):50-56. 被引量：4
4翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
5郭琦娟,陈通照.全文检索系统中动态索引技术的研究[J].微型电脑应用,2006,22(11):11-12.
6郭琦娟,陈通照.一种动态更新索引结构的设计与实现[J].计算机系统应用,2006,15(12):76-79. 被引量：2
7郭琦娟,陈通照.全文检索系统中动态索引技术的研究[J].计算机与数字工程,2007,35(1):40-42. 被引量：2
8蒋卫星,金瓯,张彬.Web搜索算法研究综述[J].计算机技术与发展,2007,17(4):178-181. 被引量：2
9李村合,杨春伟.基于Web内容挖掘的搜索引擎页面等级改进算法[J].微计算机应用,2007,28(6):571-574. 被引量：1
10宣照国,党延忠.无词典中文特征词自动抽取的桥接模式滤除算法[J].计算机应用研究,2007,24(7):168-170. 被引量：1

同被引文献41

1申展,江宝林,陈祎,唐磊,胡运发.全文检索模型综述[J].计算机科学,2004,31(5):61-64. 被引量：12
2彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
3王智强,刘建毅.一种实时更新索引结构的设计与实现[J].计算机系统应用,2005,14(10):79-82. 被引量：8
4刘锐,李盘林,李秉智.一种适用于大容量Flash存储系统的管理方案[J].计算机应用研究,2006,23(2):87-88. 被引量：3
5杨晓伟,欧阳柏平,余舒,吴春国,梁艳春.自适应迭代算法支持向量集的特性研究[J].吉林大学学报（信息科学版）,2006,24(2):153-157. 被引量：4
6郑德舜.一种高效的散列查询算法[J].南京邮电大学学报（自然科学版）,2006,26(2):92-96. 被引量：2
7沈胜宇,李思昆.基于悖论分析和增量求解的快速反例压缩算法[J].软件学报,2006,17(5):1034-1041. 被引量：5
8何伟,薛素静,孔梦荣,杨正党.基于Lucene的全文搜索引擎的设计与实现[J].情报杂志,2006,25(9):88-90. 被引量：12
9廖巍,熊伟,王钧,景宁,钟志农.可伸缩的增量连续k近邻查询处理[J].软件学报,2007,18(2):268-278. 被引量：10
10熊回香,夏立新.基于词索引的中文全文检索关键技术及其发展方向[J].中国图书馆学报,2007,33(4):45-49. 被引量：6

引证文献6

1魏唯,欧阳丹彤,吕帅,殷明浩.一种多目标增量启发式搜索算法[J].吉林大学学报（理学版）,2009,47(4):752-758. 被引量：5
2谭斌,丁莎,车念,徐力,聂清彬,谭钱茂,黄翔.一种面向域的高效倒排索引结构及实时更新[J].四川大学学报（自然科学版）,2011,48(2):321-326. 被引量：2
3时亚南,束文杰,于国欣.倒排文件页式存储方法[J].计算机系统应用,2015,24(5):253-256. 被引量：1
4束文杰,时亚南,于国欣.线性散列在全文检索中的应用研究[J].计算机技术与发展,2015,25(6):197-201. 被引量：1
5刘静.基于Lucene的索引文件深入研究[J].软件工程师,2015(7):50-52. 被引量：1
6李文,洪亲,滕忠坚,石兆英.一种由B+树实现的倒排索引[J].电脑知识与技术（过刊）,2011,17(3X):1720-1722.

二级引证文献9

1魏唯,欧阳丹彤,吕帅,冯宇轩.动态不确定环境下多目标路径规划方法[J].计算机学报,2011,34(5):836-846. 被引量：26
2何贤江,左航,李远红.面向移动平台的FAQD自动问答系统[J].四川大学学报（自然科学版）,2012,49(3):560-564. 被引量：1
3赵仁明,朱波.基于现代启发式搜索算法的云数据中心自动选址模型研究[J].软件导刊,2013,12(12):44-46.
4任伟建,左方晨,康朝海,王琼,霍凤财.基于WebGIS的油田应急抢险最短路径算法研究[J].石油化工自动化,2014,50(5):29-33. 被引量：1
5马旸,蔡冰.大数据环境下Lucene性能优化方法研究[J].南京理工大学学报,2015,39(3):260-265. 被引量：2
6任伟建,左方晨,黄丽杰,董海超.基于GIS的最短路径算法研究[J].吉林大学学报（信息科学版）,2015,33(6):675-679. 被引量：1
7杨雪亮,赵倩.基于路网的旅游标志系统信息发布设计[J].公路交通科技（应用技术版）,2016,12(8):275-276. 被引量：1
8沙阳阳,吴陈.基于Web的Lucene全文搜索排序算法的研究[J].计算机与数字工程,2019,47(5):1208-1211. 被引量：6
9时亚南,郭凤娟.一种全文检索系统构建方法研究[J].信息技术与信息化,2020(11):18-20.

1赖俊,周琳,张学平.基于Web挖掘的主题式搜索引擎的设计[J].军事通信技术,2004,25(3):67-70.
2袁爱民.剖析C语言中数组的下标[J].大众科技,2007,9(7):72-72.
3师廷伟,金长江.基于FPGA的并行全比较排序算法[J].数字技术与应用,2013(10):126-127. 被引量：19
4段琢华,蔡自兴.基于多事务的关联规则增量更新[J].计算机工程与应用,2004,40(29):202-205.
5孟凡奇.编写高效汇编代码的两种方法[J].无线互联科技,2012,9(8):130-130.
6葛长明,黄茂森.国电南瑞网络103规约报文重发机制在变电站监控系统侧的优化算法分析[J].机电信息,2013(33):136-137.
7杨臻,杨志宏.以空间换时间的CACHE[J].电脑爱好者,1998(5):39-39.
8刘景云.全面掌控Windows8[J].网络运维与管理,2015,0(2):127-131.
9朱爽.NIC2009年2月 CERNIC新分配IPv4地址160C[J].中国教育网络,2009(4):32-32.
10李春旺.基于OSS的主题搜索引擎设计与实现[J].现代图书情报技术,2007(1):49-52. 被引量：1

吉林大学学报（理学版）

2007年第6期

浏览历史

内容加载中请稍等...

一种增量倒排索引结构的设计与实现被引量：6

参考文献8

二级参考文献29

共引文献40

同被引文献41

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种增量倒排索引结构的设计与实现 被引量：6

参考文献8

二级参考文献29

共引文献40

同被引文献41

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种增量倒排索引结构的设计与实现被引量：6