期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于文本及HTML标签密度的网页正文提取 被引量:1
1
作者 杨大为 王诗念 +2 位作者 包立岩 要虹吏 刘畅 《沈阳理工大学学报》 CAS 2022年第4期14-19,共6页
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的... 大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的网页正文提取方法(TTD),通过对页面文本内容和标签的统计分析,可以快速提取正文内容,适用于常见的资讯网站,具有较强的通用性。实验表明,该方法的提取效果较当前常用的方法在准确度上有较大提升,具有较高的实用性。 展开更多
关键词 标签密度 html标签 网页 正文提取
在线阅读 下载PDF
基于HTML标签的信息隐藏模型 被引量:8
2
作者 龙银香 《计算机应用研究》 CSCD 北大核心 2007年第5期137-140,共4页
通过仔细分析HTML标签的各种性质,提出了几种新的基于标签的隐藏信息的方法。在此基础上,提出并实现了一个基于HTML标签的信息隐藏模型。该模型具有隐藏容量高、隐蔽性、鲁棒性和安全性较好,并且具有弹性,能自动调节隐藏算法的参数,使... 通过仔细分析HTML标签的各种性质,提出了几种新的基于标签的隐藏信息的方法。在此基础上,提出并实现了一个基于HTML标签的信息隐藏模型。该模型具有隐藏容量高、隐蔽性、鲁棒性和安全性较好,并且具有弹性,能自动调节隐藏算法的参数,使得在满足容量的前提下,尽量提高隐蔽性。 展开更多
关键词 超文本标记语言 信息隐藏 数字水印 模型 标签 文本
在线阅读 下载PDF
基于HTML标记的信息隐藏方法 被引量:5
3
作者 龙银香 《微计算机信息》 北大核心 2006年第07X期129-131,共3页
本文通过仔细分析HTML中标记的各种性质,提出了几种新的基于标记的隐藏信息的方法。这些方法的隐蔽性较好;综合运用这些方法可以获得较大的信息隐藏容量,具有较高的隐藏比。
关键词 超文本标识语言 信息隐藏 数字水印 文本 标记
在线阅读 下载PDF
基于HTML标记信息的主题相关性判定方法 被引量:1
4
作者 张兆中 《淮阴师范学院学报(自然科学版)》 CAS 2005年第3期240-243,共4页
从目前互联网的信息发展现状出发,讨论了在信息采集过程中判断要采集的网页与主题的相关性,给出了一个基于HTML标记信息的主题相关性判定模型和算法实现.通过对试验数据分析,算法显示较好性能.
关键词 html标记 主题 相关性 模型
在线阅读 下载PDF
基于HTML卡方算法的垃圾邮件过滤器设计
5
作者 孔颖 《浙江科技学院学报》 CAS 2010年第6期525-529,共5页
介绍基于HTML标签的卡方分布算法在垃圾邮件过滤中的应用。首先对通过浏览器收集到的邮件进行分析,将其转换为HTML源代码的形式,再根据HTML语言的特点对其进行特征提取,从而达到邮件预处理的目的。随后采用LVQ神经网络建立分类器模型,... 介绍基于HTML标签的卡方分布算法在垃圾邮件过滤中的应用。首先对通过浏览器收集到的邮件进行分析,将其转换为HTML源代码的形式,再根据HTML语言的特点对其进行特征提取,从而达到邮件预处理的目的。随后采用LVQ神经网络建立分类器模型,以达到最终分离正常邮件(ham)和垃圾邮件(spam)的目的。对比实验表明,结合HTML代码的卡方分布特征提取和LVQ神经网络的分类器模型效果更好。 展开更多
关键词 垃圾邮件过滤 html标签 卡方分布
在线阅读 下载PDF
利用HTML标签筛选网页分类样本 被引量:3
6
作者 侯小静 王黎明 《微机发展》 2005年第3期142-144,共3页
互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特... 互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性。 展开更多
关键词 超文本标识语言 文档对象模型 标签 网页分类
在线阅读 下载PDF
基于HTML5语义化标签的Web文本提取技术 被引量:3
7
作者 韦佳佳 《贵阳学院学报(自然科学版)》 2017年第3期25-28,共4页
本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术。该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息。
关键词 网页 文本抽取 html5 语义化标记
在线阅读 下载PDF
基于HTML标签扩展的智能搜索引擎设计
8
作者 李书攀 《南阳师范学院学报》 CAS 2013年第12期54-58,共5页
搜索引擎能够帮助人们方便、快捷地从网上获取相应的信息,其逐渐地由传统搜索引擎向智能搜索引擎转变.本文提出一种基于HTML标签扩展方式的智能搜索引擎设计,通过扩展HTML标签,使搜索引擎能够与数据的发布者协作,利用扩展标签中的语义信... 搜索引擎能够帮助人们方便、快捷地从网上获取相应的信息,其逐渐地由传统搜索引擎向智能搜索引擎转变.本文提出一种基于HTML标签扩展方式的智能搜索引擎设计,通过扩展HTML标签,使搜索引擎能够与数据的发布者协作,利用扩展标签中的语义信息,提高分类的效率和实时性,并增强用户体验. 展开更多
关键词 html 标签 智能搜索引擎
在线阅读 下载PDF
基于分块的网页信息解析器的研究与设计 被引量:55
9
作者 于满泉 陈铁睿 许洪波 《计算机应用》 CSCD 北大核心 2005年第4期974-976,共3页
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
关键词 WEB挖掘 html标记 视觉特征 网页分块
在线阅读 下载PDF
基于扩展标记图的网页信息重组技术 被引量:3
10
作者 朱征宇 王亮 +1 位作者 赵银春 程代杰 《计算机科学》 CSCD 北大核心 2004年第5期56-60,64,共6页
本文介绍一种基于扩展标记图ETG(Extended Tag Graph)的网页信息抽取与重组新技术,引入了扩展标记图操作和重构概念,提出了作为用户接口的标记查询语言TagSQL。用户通过类标准SQL的语言描述,即可方便地实现对网页信息的灵活抽取和重组... 本文介绍一种基于扩展标记图ETG(Extended Tag Graph)的网页信息抽取与重组新技术,引入了扩展标记图操作和重构概念,提出了作为用户接口的标记查询语言TagSQL。用户通过类标准SQL的语言描述,即可方便地实现对网页信息的灵活抽取和重组操作。 展开更多
关键词 扩展标记图 网页信息 重组技术 ETG 抽取 标记查询语言 tagSQL
在线阅读 下载PDF
一种基于重复标记属性的多网页信息隐藏方法 被引量:7
11
作者 李建国 马小虎 沈晓峰 《计算机应用与软件》 CSCD 2009年第8期62-63,85,共3页
信息隐藏技术作为信息安全的热点,被应用于版权保护和隐蔽通信等领域。通过分析浏览器解析超文本标记语言的特性,提出重复标记属性的网页信息隐藏技术,同时针对网页中可隐藏信息量少的特点,采用了多网页隐藏方法。实验证明该方法的信息... 信息隐藏技术作为信息安全的热点,被应用于版权保护和隐蔽通信等领域。通过分析浏览器解析超文本标记语言的特性,提出重复标记属性的网页信息隐藏技术,同时针对网页中可隐藏信息量少的特点,采用了多网页隐藏方法。实验证明该方法的信息隐藏性较好,具有较高的使用价值。 展开更多
关键词 超文本标记语言 信息隐藏 标记
在线阅读 下载PDF
基于网页内容相似度改进算法的主题网络爬虫 被引量:6
12
作者 魏晶晶 杨定达 廖祥文 《计算机与现代化》 2011年第9期1-4,共4页
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明... 主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。 展开更多
关键词 搜索引擎 主题网络爬虫 相似度 向量空间模型 html标签
在线阅读 下载PDF
主题网页标签树邻接矩阵识别算法研究 被引量:2
13
作者 宋军 杨晓夫 +1 位作者 李益才 王家伟 《计算机科学》 CSCD 北大核心 2016年第6期316-320,共5页
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题... 随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。 展开更多
关键词 网页结构 html标签 标签树邻接矩阵
在线阅读 下载PDF
基于结构和链接扩展的中文网页分类研究 被引量:4
14
作者 刘菁菁 林鸿飞 《微电子学与计算机》 CSCD 北大核心 2007年第9期192-195,共4页
在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明,该方... 在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明,该方法比单独依赖网页内容信息的分类在效果上有所提高。 展开更多
关键词 分类 链接扩展 html标签 网络结构
在线阅读 下载PDF
基于扩展标记图的虚拟网页技术 被引量:2
15
作者 朱征宇 朱庆生 王茜 《计算机科学》 CSCD 北大核心 2001年第11期80-82,F004,共4页
大量的Web信息资源采用HTML文档形式存放,带来诸多不利因素.其一,HTML文档因包含具体数据内容,不可避免地会涉及到数据冗余和一致性维护的问题.比如,在一个电子商场网站设计中,为服务于不同客户群,一双皮鞋的基础数据(厂家介绍、产品说... 大量的Web信息资源采用HTML文档形式存放,带来诸多不利因素.其一,HTML文档因包含具体数据内容,不可避免地会涉及到数据冗余和一致性维护的问题.比如,在一个电子商场网站设计中,为服务于不同客户群,一双皮鞋的基础数据(厂家介绍、产品说明和图片等)可能会重复地放入多个网页中,如按分类、按品牌和按厂家等方式组织的网页.其二,HTML文档不利于构建新网页的重用,难以适应变化需求,如当有新客户群希望按老中幼年龄段来浏览商品时,新网页须从头组织,且可能产生新的数据冗余.其三,HTML文档的信息检索和查询优化较为困难. 展开更多
关键词 虚拟网页 扩展标记图 网络浏览器 信息检索
在线阅读 下载PDF
基于属性标签的Web数据挖掘 被引量:1
16
作者 黄亮 赵泽茂 梁兴开 《计算机应用与软件》 CSCD 北大核心 2012年第11期156-159,共4页
Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。提出一种基于属性标签的Web数据提取的方法,构造带有属性标签的DOM树,通过比较属性标签的值挖掘重复模式,制定三个规则排除干扰模式,找到... Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。提出一种基于属性标签的Web数据提取的方法,构造带有属性标签的DOM树,通过比较属性标签的值挖掘重复模式,制定三个规则排除干扰模式,找到数据域,进而从数据域中提取出数据记录。 展开更多
关键词 WEB安全 WEB数据挖掘 html DOM 属性标签
在线阅读 下载PDF
基于局部最优标签树的网页净化方法
17
作者 胡飞 杨华千 +2 位作者 韦鹏程 彭涛 蒲昌玖 《科学技术与工程》 北大核心 2012年第35期9556-9561,共6页
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实... 新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。 展开更多
关键词 网页净化 信息提取 html标签 局部最优 网页噪音
在线阅读 下载PDF
基于多网页信息隐藏算法研究
18
作者 孙利 张得生 陈萍 《价值工程》 2011年第23期129-130,共2页
利用网页来传递秘密信息,为了保护信息不被攻击,针对现有的网页信息隐藏技术隐藏量较少、鲁棒性差和隐蔽性差等缺陷,本文提出了一种新的结合多网页隐藏信息的方法,将隐藏信息以二值图像应用于网页隐藏中。实验证明,该方法较好的隐藏性... 利用网页来传递秘密信息,为了保护信息不被攻击,针对现有的网页信息隐藏技术隐藏量较少、鲁棒性差和隐蔽性差等缺陷,本文提出了一种新的结合多网页隐藏信息的方法,将隐藏信息以二值图像应用于网页隐藏中。实验证明,该方法较好的隐藏性和安全性,具有较高的使用价值。 展开更多
关键词 信息隐藏 网页 html 标记
在线阅读 下载PDF
定制标识在多层Web数据库系统中的应用
19
作者 何汉明 《控制工程》 CSCD 2005年第2期162-164,共3页
针对如何构建高性能的网络应用系统,合理利用现有网络资源,提高工作效率的问题,通过把数据库和Web技术结合,来实现网络信息的动态发布和网络办公自动化。介绍了定制HTML标识的作用和工作机理,结合WebBroker技术讨论了在多层Web数据库应... 针对如何构建高性能的网络应用系统,合理利用现有网络资源,提高工作效率的问题,通过把数据库和Web技术结合,来实现网络信息的动态发布和网络办公自动化。介绍了定制HTML标识的作用和工作机理,结合WebBroker技术讨论了在多层Web数据库应用系统中数据层、应用程序服务器、界面层是如何实现数据库数据的动态传递的,并结合实际介绍了多层Web应用系统的具体实现过程。 展开更多
关键词 定制标识 WebBroker 样板页面 多层Web数据库系统
在线阅读 下载PDF
基于分块的网页主题文本抽取 被引量:5
20
作者 任玉 樊勇 郑家恒 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期141-144,共4页
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本... 根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。 展开更多
关键词 html标签 网页分块 内容特征 信息抽取
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部