近似镜像网页检测算法的研究与评价被引量：21

Research and Evaluation of Near replicas of Web Pages Detection Algorithms

下载PDF

导出

摘要当前在WWW上有众多的近似镜像web页面 ,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一 .为基于关键词匹配的搜索引擎系统提出了 5种近似镜像网页检测算法 ,并利用“天网”系统对这 5种算法进行了实际评测 .另外还将它们与现有的方法进行了对比分析 .本文所论述的近似镜像检测算法已成功地被用于消除“天网”系统的重复网页。 Many documents are being replicated across the World-wide Web.How to efficiently and accurately find the near-replicas of web pages has become an important topic in the search engine research area,which can be used to improve the quality of searching service.In this paper,we propose 5 near-replicas detection algorithms for search engines that rely on keyword matching,and evaluate them using the WebGather search engine system.In addition,we also compare our method with one of the most popular copy detection mechanisms.Our method has been successfully adopted to remove the near-replicas of web pages in WebGather,and it can also be widely used to build digital library.

作者王建勇谢正茂雷鸣李晓明

机构地区北京大学计算机科学技术系

出处《电子学报》 EI CAS CSCD 北大核心 2000年第z1期130-132,129,共3页 Acta Electronica Sinica

基金国家 973重大基础研究发展规划项目基金! (No.G1 9990 32 70 6)

关键词万维网搜索引擎近似镜像向量空间模型 MD5 World Wide Web search engine near-replicas vector space model MD5

分类号 TN-55 [电子电信]

引文网络
相关文献

参考文献3

1[1]Narayanan Shivakumar,et al.Finding near-replicas of documents on the web[DB/OL].http://dbpubs.stanford.edu/pub/1998-31.
2[2]J.Liu,M.Lei,J.Wang,and B.Chen.Digging for gold on the web:Experience with the WebGather[A].Proc.of the 4th Inter.Conf.on High Performance Computing in the Asia-Pacific Region[C],Beijing,P.R.China,May 2000:751-755.
3[3]U.Manber.Finding similar files in a large file system[R].Technical Report TR 93-33,University of Arizona,Tuscon,Arizona,October 1993.

同被引文献124

1姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
2曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
3王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6张明辉,王成耀,宋威.一种基于段落的分段签名近似镜像新算法[J].情报杂志,2005,24(1):21-23. 被引量：2
7张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
8刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
9詹川,卢显良,侯孟书,刘志辉.基于签名的近似垃圾邮件检测算法[J].计算机工程,2006,32(5):122-124. 被引量：4
10陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11

引证文献21

1张明辉,王成耀,宋威.一种基于段落的分段签名近似镜像新算法[J].情报杂志,2005,24(1):21-23. 被引量：2
2连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
3魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
4樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
5张曼,李弼程,林琛.基于SHA-1的邮件去重算法[J].计算机工程,2008,34(11):270-272. 被引量：1
6杨申彦,黄青松.网页去重在基于Web企业竞争情报平台中的应用与研究[J].云南民族大学学报（自然科学版）,2008,17(4):380-382.
7刘峰,王儒敬.MD5算法在农业数据消重中的应用[J].计算机系统应用,2009,18(1):104-106. 被引量：2
8杨伟杰,戴汝为,崔霞.一种基于信息检索技术的网络新闻影响力分析方法[J].软件学报,2009,20(9):2397-2406. 被引量：19
9梁叶,梁京章,阳红,叶云.近似镜像检测算法在文本消重中的应用研究[J].广西大学学报（自然科学版）,2010,35(2):320-323. 被引量：2
10张京阳,张华平,刘金刚.基于聚团词的大规模文本转载识别算法[J].计算机应用,2010,30(6):1661-1663. 被引量：2

二级引证文献94

1吴珺.互联网与信息获取[J].光盘技术,2009(6).
2葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1250-1253. 被引量：5
3卢效峰,郑权.基于用户行为分析的搜索引擎模型[J].北方工业大学学报,2004,16(3):13-16. 被引量：6
4高波,张忠能,查志琴.基于文字链接比的网页分类的研究[J].计算机工程与应用,2004,40(27):151-153. 被引量：1
5李国锋,李春伟.网络搜索引擎技术探析[J].廊坊师范学院学报,2005,21(4):82-84. 被引量：1
6沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
7李立耀.基于页面链接结构Page Rank算法的改进——有向访问模型[J].福建师大福清分校学报,2006,24(2):4-10. 被引量：1
8徐苏,李向军,张乐,罗晶,吴德道.网站实时监控和动态挖掘系统的研究与设计[J].计算机工程与科学,2006,28(5):1-2.
9严宏伟,何俊.基于房源分析系统的垂直搜索引擎关键技术的探讨[J].中国科技信息,2007(5):153-155.
10查志琴.基于行模式的网页信息提取算法[J].常州工学院学报,2007,20(4):1-4. 被引量：3

1杨文忠,彭曙蓉.简报近似网页的一种检测算法[J].微计算机应用,2006,27(1):22-22.
2闫丽萍.浅议“校园一卡通”在图书馆的运行[J].电脑知识与技术（过刊）,2014,20(7X):4941-4942. 被引量：1
3程远东.物联网时代RFID在数字化图书馆中的应用[J].制造业自动化,2011,33(9):130-132. 被引量：8
4杜雷,王俭,马春华.基于云计算的数字化图书馆建设探索[J].电子世界,2013(2):12-12.
5曹秀亮.HgCdTe薄膜材料缺陷的研究现状[J].红外,2006,27(8):27-32. 被引量：3
6木木.搜索引擎靠什么驱动[J].现代计算机（中旬刊）,2009(1):127-127.
7网络与服务[J].电子与电脑,2000(10):117-118.
8田生伟,禹龙.搜索引擎中并行检索均衡自适应机制的研究与实践[J].计算机应用与软件,2005,22(4):83-84.
9重庆电信全球眼不只是视频监控这么简单[J].重庆通信业,2009(5):45-45.
10昊晓飞.基于个性化服务的手机信号搜索引擎研究与实现[J].中国电子商务,2013(5):56-56.

电子学报

2000年第z1期

浏览历史

内容加载中请稍等...

近似镜像网页检测算法的研究与评价被引量：21

参考文献3

同被引文献124

引证文献21

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

近似镜像网页检测算法的研究与评价 被引量：21

参考文献3

同被引文献124

引证文献21

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

近似镜像网页检测算法的研究与评价被引量：21