摘要
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。
A Web information retrieval algorithm based on web page segment is designed. The key idea is to segment each web page into different topic areas or segments according to its HTML tags and contents since web pages are semi-structure. First the algorithm builds a HTML tag tree. Then it combines nodes in the tree by using both the content similarity and visual similarity. The retrieval and ranking algorithm makes use of this segmentation information to search and order the relevant pages.
出处
《图书情报工作》
CSSCI
北大核心
2009年第3期108-110,114,共4页
Library and Information Service
基金
淮安市科技计划项目"基于Web级科技计划项目管理系统"(项目编号:HAG08081)研究成果之一