期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
Word2vec的核心架构及其应用 被引量:68
1
作者 熊富林 邓怡豪 唐晓晟 《南京师范大学学报(工程技术版)》 CAS 2015年第1期43-48,共6页
神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加... 神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在"遣词造句".近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集.首先,重点介绍Word2vec的核心架构CBOW及Skip-gram;接着,使用英文语料训练Word2vec模型,对比两种架构的异同;最后,探讨了Word2vec模型在中文语料处理中的应用. 展开更多
关键词 自然语言处理 word2vec cbow skip-gram 中文语言处理
在线阅读 下载PDF
一种Word2vec构建词向量模型的实现方法 被引量:12
2
作者 席宁丽 朱丽佳 +2 位作者 王录通 陈俊 万晓容 《电脑与信息技术》 2023年第1期43-46,共4页
Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可... Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可视化输出。实验中进一步针对CBOW模型与Skip-gram模型,这两种Word2vec中的重要模型进行对比研究,输出结果表明:在通过大语料训练中文词向量时,Skip-gram模型在新词识别上具有明显优势,综合模型准确性与时间性能来说,总体可靠性更优。 展开更多
关键词 词向量 word2vec cbow skip-gram NLP
在线阅读 下载PDF
基于word2vec的程序编译错误信息特征提取方法 被引量:1
3
作者 何烨辛 谷林 孙晨 《计算机与数字工程》 2022年第6期1317-1322,共6页
输入表示为固定长度的特征向量是机器学习算法要求之一。针对编程中的编译错误信息特征,论文提出了基于word2vec模型对编译错误信息进行特征提取。利用滑动窗口取词的方式,建立one-hot字典,结合word2vec中的Skip-gram模型,构建Huffman树... 输入表示为固定长度的特征向量是机器学习算法要求之一。针对编程中的编译错误信息特征,论文提出了基于word2vec模型对编译错误信息进行特征提取。利用滑动窗口取词的方式,建立one-hot字典,结合word2vec中的Skip-gram模型,构建Huffman树,从可变长度的文本中学习固定长度的特征表示。最后使用SVM分类算法进行实验结果的验证。结果表明,该特征提取方法在编译错误信息中有显著的效果。 展开更多
关键词 word2vec 编译错误信息 skip-gram模型 HUFFMAN树 SVM
在线阅读 下载PDF
word2vec基础上的配电网恶意控制指令检测
4
作者 李静 戴越 《单片机与嵌入式系统应用》 2019年第10期22-24,36,共4页
提出了一种根据上下文数据关系建立的word2vec算法。针对大量访问数据来建立白名单模型,通过对配电网上下文测量信息和控制信息的挖掘和数据驱动实现恶意控制指令的快速检测,获得白名单模型中的不符合项作为异常。利用孤立森林算法建立... 提出了一种根据上下文数据关系建立的word2vec算法。针对大量访问数据来建立白名单模型,通过对配电网上下文测量信息和控制信息的挖掘和数据驱动实现恶意控制指令的快速检测,获得白名单模型中的不符合项作为异常。利用孤立森林算法建立上下文关系的孤立树,从而实现对各测试样本的分类和训练,采用CBOW神经网络模型将中心词汇后验概率作为输出层,获得不同样本集下的监测精确度和准确率。最后在建立的配电网仿真平台上对word2vec进行了数据挖掘和计算,验证了算法具有高准确率和低误警率。 展开更多
关键词 word2vec 配电网 恶意控制指令 cbow神经网络模型
在线阅读 下载PDF
面向社交网络的潜在药物不良反应发现 被引量:7
5
作者 赵明珍 林鸿飞 +1 位作者 徐博 郝辉辉 《中文信息学报》 CSCD 北大核心 2017年第5期194-202,共9页
随着互联网的发展,社交网络中积累了大量的医疗健康领域的文本数据。该文利用基于信息熵的方法,从健康社交网络中的用药者评论数据中识别药物的潜在不良反应;同时,对于潜在药物不良反应,该文提出了基于Word2vec和Skip-gram模型的蛋白质... 随着互联网的发展,社交网络中积累了大量的医疗健康领域的文本数据。该文利用基于信息熵的方法,从健康社交网络中的用药者评论数据中识别药物的潜在不良反应;同时,对于潜在药物不良反应,该文提出了基于Word2vec和Skip-gram模型的蛋白质关联紧密度函数,尽最大努力发现药物引起其"潜在"不良反应的证据链。实验证明,该方法用来寻求潜在药物不良反应证据链是有效的。 展开更多
关键词 社交网络 药物不良反应 信息熵 word2vec skip-gram
在线阅读 下载PDF
基于词向量和卷积神经网络的垃圾短信识别方法 被引量:13
6
作者 赖文辉 乔宇鹏 《计算机应用》 CSCD 北大核心 2018年第9期2469-2476,共8页
对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word... 对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word2vec的skip-gram模型根据维基中文语料库训练出短信数据集中每个词的词向量,并将每条短信中各个词组所对应的词向量组成表示短信的二维特征矩阵;然后,把特征矩阵作为卷积神经网络的输入,通过卷积层的不同尺度卷积核提取多尺度短信特征,以及利用1-max pooling池化策略得到局部最优特征;最后,将局部最优特征组成融合特征向量放入softmax分类器中得出分类结果。在10万条短信数据上进行的实验结果表明,在特征提取方式相同的情况下,基于卷积神经网络模型的识别准确率能够达到99.5%,比传统的机器学习模型提高了2.4%~5.1%,且各模型的识别准确率均保持在94%以上。 展开更多
关键词 垃圾短信 识别 word2vec skip-gram 词向量 卷积神经网络
在线阅读 下载PDF
基于深度学习LSTM算法的社会网络的舆情监测 被引量:1
7
作者 王民昆 王浩 苏博 《现代计算机》 2020年第33期20-24,共5页
互联网正在成为舆论的传播平台。重要的是要尽可能准确地模拟互联网舆论活动。对谣言、假新闻、误导的信息与不正确的信息等网络舆情的监测,是解决当今网络安全问题的关键,因为上述信息的传播可能会对我们的社会稳定发展产生严重的后果... 互联网正在成为舆论的传播平台。重要的是要尽可能准确地模拟互联网舆论活动。对谣言、假新闻、误导的信息与不正确的信息等网络舆情的监测,是解决当今网络安全问题的关键,因为上述信息的传播可能会对我们的社会稳定发展产生严重的后果。为了解决该问题,提出一种基于LSTM(长短期记忆)的深度学习的社会网络舆情监测。该模型使用Word2Vec算法中的CBOW模型,该模型能将单词序列转换为向量序列,然后将向量序列输入到LSTM模型中。最后,在LSTM模型的最后一个时间输出的预测类作为舆情监测的判断依据。实验结果表明,本文在舆情监测上提出的模型在精准度、召回率和F1分数等方面优于其他先进的网络舆情监测方法。本文方法的准确率较本实验中表现最好的方法提升10%,且时效性大大增加。 展开更多
关键词 舆情监测 长短期记忆 word2vec cbow模型 向量序列 深度学习
在线阅读 下载PDF
基于CNN的程序编译错误信息特征提取 被引量:1
8
作者 何烨辛 谷林 孙晨 《计算机技术与发展》 2021年第5期204-208,共5页
伴随着互联网行业的迅速发展,在自然语言处理领域中,有效地将输入表示为固定长度的特征向量是机器学习算法中的一个重要研究方向。海量的编译错误信息不仅可以用于程序错误相似度的研究,也可将编译错误信息进行聚类、分类之后给教师在... 伴随着互联网行业的迅速发展,在自然语言处理领域中,有效地将输入表示为固定长度的特征向量是机器学习算法中的一个重要研究方向。海量的编译错误信息不仅可以用于程序错误相似度的研究,也可将编译错误信息进行聚类、分类之后给教师在计算机编程类课程的教育教学中给予针对性的指导。这些应用的根本在于高效地提取编译错误信息特征。该文提出了一种基于word2vec模型结合卷积神经网络(convolutional neural networks, CNN)对编译错误信息进行特征提取的方法,首先利用word2vec工具中的skip-gram模型以词向量的形式表示编译错误信息,然后利用CNN神经网络完整地表征编译错误信息特征向量。有效地从可变长度的编译错误信息中学习固定长度的特征表示。最后使用支持向量机(SVM)分类算法进行实验结果的验证。结果表明,该特征提取方法在编译错误信息中有显著的效果。 展开更多
关键词 word2vec 编译错误信息 skip-gram模型 CNN 支持向量机
在线阅读 下载PDF
Improved Dota2 Lineup Recommendation Model Based on a Bidirectional LSTM 被引量:7
9
作者 Lei Zhang Chenbo Xu +3 位作者 Yihua Gao Yi Han Xiaojiang Du Zhihong Tian 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2020年第6期712-720,共9页
In recent years,e-sports has rapidly developed,and the industry has produced large amounts of data with specifications,and these data are easily to be obtained.Due to the above characteristics,data mining and deep lea... In recent years,e-sports has rapidly developed,and the industry has produced large amounts of data with specifications,and these data are easily to be obtained.Due to the above characteristics,data mining and deep learning methods can be used to guide players and develop appropriate strategies to win games.As one of the world’s most famous e-sports events,Dota2 has a large audience base and a good game system.A victory in a game is often associated with a hero’s match,and players are often unable to pick the best lineup to compete.To solve this problem,in this paper,we present an improved bidirectional Long Short-Term Memory(LSTM)neural network model for Dota2 lineup recommendations.The model uses the Continuous Bag Of Words(CBOW)model in the Word2 vec model to generate hero vectors.The CBOW model can predict the context of a word in a sentence.Accordingly,a word is transformed into a hero,a sentence into a lineup,and a word vector into a hero vector,the model applied in this article recommends the last hero according to the first four heroes selected first,thereby solving a series of recommendation problems. 展开更多
关键词 word2vec mutiplayer online battle arena games Continuous Bag Of words(cbow)model Long Short-Term Memory(LSTM)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部