基于Word2fea模型的文本建模方法被引量：1

Text Modeling Method Based on Word2fea Model

下载PDF

导出

摘要文本聚类在数据挖掘和机器学习中发挥着重要作用,该技术经过多年的发展,已产生了一系列的理论成果。传统向量空间模型的文本建模方法存在维度高、数据稀疏和缺乏语义信息等问题,然而仅仅引入词典的文本建模部分解决了语义问题却又受限于人工词典词量少、人工耗力大等多种问题。文中借鉴主题模型的思想,提出一种以word2vec算法得到词向量为基础,词聚类的类别为主题,结合文本中主题的频率、分布范围、位置因子等特征以获得文本在类别空间上的特征向量,完成文本建模的方法 word2fea。将其与两种文本建模方法 VSM和word2vec_base进行比较,实验结果表明该方法能够明显提高文本分类准确率。 Text classification plays an important role in data mining and machine learning,which has produced a series of theory after years of development. The traditional text modeling method of vector space model has the problems of high dimension,sparse data,and the lack of semantic. However,the text modeling introduced the artificial dictionary is constrained by quantity of words,artificial power consumption and other problems. By referencing the idea of topic model,a text modeling method word2 fea was presented which based on the model of word2 vec for the topic clusters with the word vectors,meanwhile combined with the frequency,distribution and location of the topic on documents to obtain the feature of the text. Compared with two text modeling methods,VSMand word2vec_base,the experimental results show that this method can significantly improve the accuracy of text classification.

作者卫华韩立新夏建华

机构地区河海大学计算机与信息学院

出处《计算机技术与发展》 2016年第2期165-167,173,共4页 Computer Technology and Development

基金中央高校基本科研业务费专项资金(2014B33014)

关键词 word2vec 文本建模文本分类 word2fea word2vec text modeling text classification word2fea

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1Sahon G, Others A. A vector space model for automatic inde-xing[ J]. Communications of the ACM, 1975,18 (10) :613 - 620.
2李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
3梅家驹,竺一鸣,高蕴琦,殷鸿翔.编纂汉语类义词典的尝试——《同义词词林》简介[J].辞书研究,1983(1):133-138. 被引量：15
4Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis [ J ]. JASIS, 1990,41 (6) :391-407.
5Hofmann T. Probabilistic latent semantic indexing [ C ]//Pro- ceedings of the 22nd annum international ACM SIGIR confer- ence on research and development in information retrieval. [s. 1. ] :ACM,1999:50-57.
6Blei D M, Ng A Y ,Jordan M I. Latent Dirichlet allocation[ J]. Journal of Machine Learning Research, 2003,3 : 993-1022.
7张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：79
8王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：99
9唐晓丽,白宇,张桂平,蔡东风.一种面向聚类的文本建模方法[J].山西大学学报（自然科学版）,2014,37(4):595-600. 被引量：8
10Bengio Y, Schwenk H, Sen6cal Jean - S6bastien, et al. Neural probabilistic language models[J]. Studies in Fuzziness & Soft Computing, 2006,16 (3) : 137-186.

二级参考文献81

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
3H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
4Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
5S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
6J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
7Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286
8Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62
9Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143
10J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998

共引文献488

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：1
2刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：10
3魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：10
4孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
5张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
6邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
7孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
8金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
9吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
10陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).

同被引文献5

1朱群雄,孙锋.RNN神经网络的应用研究[J].北京化工大学学报（自然科学版）,1998,25(1):86-90. 被引量：17
2奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
3周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：102
4相若晨,孙美凤.基于词向量与句法树的中文句子情感分析[J].计算机与现代化,2016(8):27-31. 被引量：2
5奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：228

引证文献1

1陈葛恒.基于极性转移和双向LSTM的文本情感分析[J].信息技术,2018,42(2):149-152. 被引量：5

二级引证文献5

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：7
2彭丹蕾,谷利泽,孙斌.基于SVM和LSTM两种模型的商品评论情感分析研究[J].软件,2019,40(1):41-45. 被引量：8
3史振杰,董兆伟,庞超逸,张百灵,孙立辉.基于BERT-CNN的电商评论情感分析[J].智能计算机与应用,2020,10(2):7-11. 被引量：16
4Qixiu Kang,Jing Tang,Yuming Wang.Product Promotion Prediction Model Based on Evaluation Information[J].Modern Electronic Technology,2021,5(1):10-14.
5邵辉.基于BERT-CNN的中文评论文本情感分析[J].科技创新导报,2021,18(31):179-183.

1唐晓丽,白宇,张桂平,蔡东风.一种面向聚类的文本建模方法[J].山西大学学报（自然科学版）,2014,37(4):595-600. 被引量：8
2王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报,2015,34(5):536-548.
3龙银杏,阳许军.用向量空间模型对运营商投诉文本建模的研究[J].信息技术,2016,40(12):121-124. 被引量：1
4张凯书,李志刚,吴慧芳,吕夏兰.孤立点检测在移动通信数据分析上的研究与应用[J].信息系统工程,2014,27(11):38-38. 被引量：1
5郑诚,代宁.一种短文本主题特征的改进方法[J].工业控制计算机,2015,28(8):110-112.
6江涛,于洪志.一种面向藏文聚类的文本建模方法[J].西北民族大学学报（自然科学版）,2016,37(3):24-28. 被引量：1
7李振兴,王松.基于卡方特征和BTM融合的短文本分类方法[J].兰州交通大学学报,2016,35(1):36-41. 被引量：1
8洪立印,徐蔚然.一种结构化数据关系特征抽取和表示模型[J].软件,2013,34(12):148-151. 被引量：9
9史庆伟,郭朋亮.基于LDA的条件随机场主题模型研究[J].计算机工程与应用,2015,51(7):131-135. 被引量：1
10林克明,薛永生,文娟.一种基于信息论的归纳分类学习算法[J].厦门大学学报（自然科学版）,2009,48(2):198-201.

计算机技术与发展

2016年第2期

浏览历史

内容加载中请稍等...

基于Word2fea模型的文本建模方法被引量：1

参考文献14

二级参考文献81

共引文献488

同被引文献5

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Word2fea模型的文本建模方法 被引量：1

参考文献14

二级参考文献81

共引文献488

同被引文献5

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Word2fea模型的文本建模方法被引量：1