期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
词向量聚类加权Shark-Search的主题爬虫策略研究 被引量:7
1
作者 程元堃 廖闻剑 程光 《计算机与数字工程》 2018年第1期144-148,共5页
针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制。实验结果表明,利用改进后的新算法在... 针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制。实验结果表明,利用改进后的新算法在限定时间内能够发现更多主题相关的链接,有效提高了主题爬虫的效率。 展开更多
关键词 主题爬虫 Shark-Search 词向量聚类
在线阅读 下载PDF
基于吸引子传播聚类的改进双通道CNN短文本分类算法 被引量:9
2
作者 王儒 刘培玉 王培培 《小型微型计算机系统》 CSCD 北大核心 2017年第8期1730-1734,共5页
传统的文本分类方法在处理短文本分类任务时遇到了很大的困难,针对短文本分类任务上的数据稀疏等难点,本文尝试在短文本特征输入和卷积神经网络结构上进行改进.在特征表示Word embedding训练时采取non-static和static两种方式,将训练好... 传统的文本分类方法在处理短文本分类任务时遇到了很大的困难,针对短文本分类任务上的数据稀疏等难点,本文尝试在短文本特征输入和卷积神经网络结构上进行改进.在特征表示Word embedding训练时采取non-static和static两种方式,将训练好的Word embedding进行聚类处理,聚类得到的Word embedding库作为模型输入的词典库;提出一种改进的双通道卷积神经网络结构,网络通过双通道获取更多的局部敏感信息增加特征数目,然后经过连续的池化实现特征抽取.经实验验证,提出的语义聚类处理和改进的网络模型与传统的机器学习方法相比,在短文本分类任务的准确率上有显著的提升. 展开更多
关键词 词向量聚类 短文本 CNN
在线阅读 下载PDF
结合主题信息聚类编码的文本摘要模型 被引量:2
3
作者 魏媛媛 倪建成 +1 位作者 高峰 吴俊清 《计算机技术与发展》 2021年第1期30-34,共5页
结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme informa... 结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme information clustering coding text summarization)。将传统的抽取式文本摘要方法与基于深度学习的生成式文本摘要方法相结合,使用基于词向量的聚类算法进行主题信息提取,利用余弦相似度计算输入文本与所提取关键信息的主题相关性,将其作为主题编码的权重以修正注意力机制,在序列到序列模型的基础上结合主题信息与注意力机制生成摘要。模型在LCSTS数据集上进行实验,以ROUGE为评价标准,实验结果相对于基线模型在ROUGE-1的得分上提高了1.1,ROUGE-2提高了1.3,ROUGE-L提高了1.1。实验证明结合主题信息聚类编码的摘要模型生成的摘要更切合主题,摘要质量有所提高。 展开更多
关键词 序列到序列模型 生成式文本摘要 词向量聚类 主题编码 余弦相似度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部