基于Web挖掘的网页清洗技术被引量：7

Web Page Cleaning Technology Based on Web Mining

下载PDF

导出

摘要随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。 With rapid expansion of information resources important role.How to eliminate noisy information in web on the Internet increasingly,Web mining technology plays an pages is a main part of information extraction based on Web mining.It is a preprocessing step in the Web mining.The result of Web mining lies on the step.In the paper,we firstly analyze the feature of noisy information.Then,based on our observation ,using some extracting rules and statistic methods to eliminate noisy information and extract available information.

作者李嘉佑贾自艳何清史忠植

机构地区中国科技大学中国科学院计算技术研究所智能信息处理实验室

出处《计算机工程与应用》 CSCD 北大核心 2006年第25期98-101,共4页 Computer Engineering and Applications

基金国家自然科学基金资助项目(编号:90104021)

关键词 Web数据信息抽取噪音数据 Web data, information extraction, noisy information

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Junghoo Cho.CRAWLING THE WEB:DISCOVERY AND MAINTENANCE OF LARGE-SCALE WEB DATA[D].Ph D Dissertation.2001
2Steve Lawrence,C Lee Giles.Searching the World Wide Web[J].Science,1998; 280 (5360)
3Information Extraction:A Multidisciplinary Approach to an Emerging Information Technology[C].In:Pazienza,Maria Teresa Pazienza eds.volume 1299 of Lecture Notes in Artificial Intelligence,Springer,International Summer School,SCIE-97,Frascati,Italy,1997
4N Kushmerick.Cleaning the web[J].IEEE Intelligent System,1999;14(2):20～22
5S Soderland.Learning information extraction rules for semi-structured and free text[J].Machine Learning,1999;34:233～272
6D Freigat.Information extraction from html:application of a general learning approach[C].In:proceedings of the fifteenth conference on artifical intelligence AAAI-98,1998:517～523
7C Hsu,M Dung.Generating finite-state transducers for semi-structured data extraction from the web[J].Journal of Information Systems,1998;23(8):521～538

同被引文献68

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：100
4傅骞,温晓辉.开放式Web信息抽取系统研究与实现[J].北京师范大学学报（自然科学版）,2005,41(6):594-598. 被引量：3
5付德宇,代成琴.一个面向文本分类的中文特征词自动抽取方法[J].计算机工程与应用,2006,42(15):165-167. 被引量：4
6吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
7雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
8谭应伟,莫倩.基于Web的有监督自适应话题追踪系统的设计与实现[J].郑州大学学报（理学版）,2007,39(2):25-29. 被引量：5
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5

引证文献7

1付德宇,杨庆海,代成琴.网站关键资源与域名活跃度相结合的高校信息化评价方法[J].武汉大学学报（理学版）,2012,58(S1):167-170. 被引量：1
2常红要,朱征宇.网页正文提取中与正文无关的图像清除技术[J].计算机技术与发展,2010,20(7):17-20. 被引量：1
3常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
4丘海澜,文翰,肖南峰.基于访问日志的网页内容监控挖掘系统[J].计算机工程,2011,37(4):70-72.
5潘文富,郭友实.网络舆情监测技术研究综述[J].福建电脑,2011,27(8):39-41. 被引量：10
6申晨,周辉.基于区域分块的微内容类网页正文提取技术[J].海南大学学报（自然科学版）,2013,31(1):31-36. 被引量：2
7胡晶.基于HTML5离线存储的产品演示系统的开发[J].洛阳师范学院学报,2014,33(11):60-62. 被引量：2

二级引证文献30

1宋健豪,赵刚.基于启发式规则优化的网页元素提取方法[J].信息安全与技术,2012,3(6):66-69. 被引量：2
2胡晟.基于网络爬虫的Web挖掘应用[J].软件,2012,33(7):145-147. 被引量：8
3曾阳素,刘水强,伍雁鹏,雷军程.对高校网络舆情系统建设的几点思考[J].邵阳学院学报（自然科学版）,2012,9(4):25-28. 被引量：3
4郭林宇,戚亚梅,李艳,廉亚丽,李祥洲.农产品质量安全网络舆情监测工作的几点思考[J].中国食物与营养,2012,18(12):5-7. 被引量：7
5胡晟,季志远,程晓荣.基于数据挖掘的主题种子站点提取器的研究[J].软件,2013,34(2):56-57. 被引量：6
6肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
7王兰成,陈立富.国内外网络舆情演化、预警和应对理论研究综述[J].图书馆杂志,2018,37(12):4-13. 被引量：27
8宫小飞.网络舆情引导在医院发展中的应用[J].中国医药导报,2014,11(28):124-128. 被引量：6
9吴茜,刘嘉勇,卿粼波.基于VIPS算法和模糊字典匹配的网页提取技术研究[J].信息网络安全,2014(10):49-53. 被引量：4
10王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2

1李建建,周之平,黎明.基于Moore模型统计路径生成算法的实现[J].南昌航空大学学报（自然科学版）,2011,25(2):42-47.
2江铭虎,朱小燕,袁保宗.一种适应域的汉语N-gram语言模型平滑算法[J].清华大学学报（自然科学版）,1999,39(9):99-102. 被引量：9
3王志辉.浅谈管理信息系统的开发[J].无线互联科技,2014,11(1):53-53.
4雷科,叶水生.基于DM6446的运动目标检测[J].计算机测量与控制,2013,21(8):2077-2079. 被引量：2
5李培华.一种改进的Mean Shift跟踪算法[J].自动化学报,2007,33(4):347-354. 被引量：53
6吴亚斌,陈淑荣.一种基于监控视频的车型识别和车流量检测算法[J].微型机与应用,2015,34(7):45-48. 被引量：4
7刘瑞梅,王玲.基于球颜色模型的主色调提取与颜色名标注[J].山东师范大学学报（自然科学版）,2013,28(4):53-56.
8施水才,王锴,韩艳铧,吕学强.基于条件随机场的领域术语识别研究[J].计算机工程与应用,2013,49(10):147-149. 被引量：14
9田国会,吉艳青,李晓磊.家庭智能空间下基于场景的人的行为理解[J].智能系统学报,2010,5(1):57-62. 被引量：4
10张亚军.维吾尔语的N-gram语言模型研究[J].电脑知识与技术（过刊）,2011,17(6X):4177-4179. 被引量：1

计算机工程与应用

2006年第25期

浏览历史

内容加载中请稍等...

基于Web挖掘的网页清洗技术被引量：7

参考文献7

同被引文献68

引证文献7

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于Web挖掘的网页清洗技术 被引量：7

参考文献7

同被引文献68

引证文献7

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于Web挖掘的网页清洗技术被引量：7