摘要
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。
With rapid expansion of information resources important role.How to eliminate noisy information in web on the Internet increasingly,Web mining technology plays an pages is a main part of information extraction based on Web mining.It is a preprocessing step in the Web mining.The result of Web mining lies on the step.In the paper,we firstly analyze the feature of noisy information.Then,based on our observation ,using some extracting rules and statistic methods to eliminate noisy information and extract available information.
出处
《计算机工程与应用》
CSCD
北大核心
2006年第25期98-101,共4页
Computer Engineering and Applications
基金
国家自然科学基金资助项目(编号:90104021)
关键词
Web数据
信息抽取
噪音数据
Web data, information extraction, noisy information