基于深度学习和支持向量机的文本分类模型被引量：6

Text Classification Model Based on Deep Learning and Support Vector Machine

下载PDF

导出

摘要 NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。 NLP(Natural Language Processing)is a major research direction in the field of artificial intelligence,and text classification is an important branch of NLP.Natural language processing enables computers,mobile phones and other electronic devices to recognize and understand human language.Due to its complexity,there are still many technical difficulties that have not been completely solved by researchers,which mainly include new words,polysemy of Chinese words,flexibility of natural language and so on.Based on the experimental data of journal articles,we study the classification of Chinese text.Based on the traditional convolutional neural network model,a text classification model CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)is proposed.Compared with the traditional method,CNNSVM adds an attention mechanism,simplifies the parameters of the model,and uses a classifier based on support vector machine to replace the softmax layer in the traditional model to help realize text classification.The experimental results show that such model improves the extraction effect of feature words and effectively solves the problem of weak generalization ability of softmax layer.

作者何铠管有庆龚锐 HE Kai;GUAN You-qing;GONG Rui(School of Internet of Things,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学物联网学院

出处《计算机技术与发展》 2022年第7期22-27,共6页 Computer Technology and Development

基金江苏省高校自然科学研究计划项目(05KJD520146)。

关键词自然语言处理词频算法中文文本分类权重预处理词密度权重 natural language processing word frequency algorithm Chinese text classification weight pretreatment word density weigh

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1梁杰,陈嘉豪,张雪芹,周悦,林家骏.基于独热编码和卷积神经网络的异常检测[J].清华大学学报（自然科学版）,2019,59(7):523-529. 被引量：122
2蔺想红,王向文,张宁,马慧芳.脉冲神经网络的监督学习算法研究综述[J].电子学报,2015,43(3):577-586. 被引量：28
3曾孟兰,杨芯萍,董学莲,罗倩.基于弱监督学习的图像语义分割方法综述[J].科技创新与应用,2020,0(8):7-10. 被引量：2
4陈珂,梁斌,柯文德,许波,曾国超.基于多通道卷积神经网络的中文微博情感分析[J].计算机研究与发展,2018,55(5):945-957. 被引量：75
5刘婧,姜文波,邵野.基于机器学习的文本分类技术研究进展[J].电脑迷,2018(6):26-26. 被引量：9
6邓婷燕,张伟泽.基于双向LSTM神经网络和注意模型的语音情感分析[J].信息通信,2020,0(1):65-66. 被引量：3
7屈薇.基于深度学习的图像识别算法研究[J].数字技术与应用,2019,37(9):121-122. 被引量：10
8周瑛,刘越,蔡俊.基于注意力机制的微博情感分析[J].情报理论与实践,2018,41(3):89-94. 被引量：44
9葛晓伟,李凯霞,程铭.基于CNN-SVM的护理不良事件文本分类研究[J].计算机工程与科学,2020,42(1):161-166. 被引量：16
10周朴雄.基于神经网络集成的WEB文档分类研究[J].图书情报工作,2008,52(7):110-112. 被引量：4

二级参考文献107

1纪正飚,王吉林,赵力.基于模糊K近邻的语音情感识别[J].微电子学与计算机,2015,32(3):59-62. 被引量：11
2孙冰,宫宁生,朱梧槚.基于覆盖的神经网络集成在语音识别中的应用[J].南京大学学报（自然科学版）,2006,42(3):331-336. 被引量：3
3王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
4Hansen L K, Salamon P, Neural Network Ensembles. IEEE Tran. on PAMI, 1990, 12(10):993-1001.
5Hornik K M, Stinchcombe M, White H. Multilayer feed-forward networks are universal approximators. Neural Networks, 1989,2(2):359-366.
6Vapnik V N. The Nature of Statistical Learning Theory. New York: Springer-Verlag, 1995:235 - 313.
7Cortes C, Vapnik V. Support Vector Networks. Machine Learning, 1995,20(3):273-297.
8Zhang Ping, Bui T D, Suen C Y. A novel cascade ensemble classifier system with a high recognition performance on handwritten digits. Pattern Recognition, 2007,40(1):3415- 3529.
9Zhou Z-H,Jiang Y,Yang Y-B, et al, Lung cancer cell identification based on artificial neural network ensembles. Artificial Intelligence in Medicine, 2002,24(1):25-36.
10Nanni L. A novel ensemble of classifiers for protein fold recognition. Neurocomputing, 2006(69):2434-2437.

共引文献309

1吴晓光,邓文强,牛小辰,贾哲恒,刘绍维.基于条件生成对抗网络的人体步态生成[J].仪器仪表学报,2020,41(1):129-137. 被引量：5
2徐畅,周志平,赵卫东.基于深度学习的回复类型预测聊天机器人[J].计算机应用研究,2020,37(S01):213-214.
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4李蕾,谢旸,蒋亚飞,刘咏彬.一种用于图卷积网络的社交关系方向门控算法[J].北京邮电大学学报,2020(5):77-83. 被引量：1
5左瑛,朱丽萍,方霓,王寅,梁栋.上海市孕产妇贫血情况的调查[J].上海医学,2000,23(5):315-316. 被引量：3
6张永山,孙峰,王焕定,魏陆顺,张建国.钢管混凝土短柱隔震装置的试验与隔震结构仿真分析[J].地震工程与工程振动,2000,20(2):117-121. 被引量：3
7仇志根,范华骅,高峰,刘达庄,张钦辉.FL联合TPO体外扩增脐血CD34^+细胞表面标志的变化[J].中国输血杂志,2000,13(1):17-18. 被引量：2
8张瑾.基于改进BP网络的中文期刊论文分类方法[J].河南图书馆学刊,2014,34(5):61-63. 被引量：1
9乔俊飞,张力,李文静.基于尖峰自组织模糊神经网络的需水量预测[J].控制与决策,2018,33(12):2197-2202. 被引量：11
10徐彦.基于梯度下降的脉冲神经元在线学习方法[J].计算机工程,2015,41(12):150-155. 被引量：6

同被引文献49

1熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：392
3周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：102
4覃伟中,冯玉仲,陈定江,朱兵,陈丙珍.面向智能工厂的炼化企业生产运营信息化集成模式研究[J].清华大学学报（自然科学版）,2015,55(4):373-377. 被引量：27
5贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：73
6於雯,周武能.基于LSTM的商品评论情感分析[J].计算机系统应用,2018,27(8):159-163. 被引量：18
7贾隆嘉,张邦佐.高校网络舆情安全中主题分类方法研究——以新浪微博数据为例[J].数据分析与知识发现,2018,2(7):55-62. 被引量：5
8刘婧,姜文波,邵野.基于机器学习的文本分类技术研究进展[J].电脑迷,2018(6):26-26. 被引量：9
9邵清,马慧萍.融合self-attention机制的卷积神经网络文本分类模型[J].小型微型计算机系统,2019,40(6):1137-1141. 被引量：21
10汪岿,刘柏嵩.文本分类研究综述[J].数据通信,2019,0(3):37-47. 被引量：21

引证文献6

1王佳慧.基于CNN与Bi-LSTM混合模型的中文文本分类方法[J].软件导刊,2023,22(1):158-164. 被引量：8
2贺婧.基于多语料库关键词搜索的英汉自动翻译方法[J].自动化与仪器仪表,2023(2):170-175. 被引量：2
3於雯.基于机器学习的网上问政文本分类方法[J].电脑知识与技术,2023,19(6):22-24.
4从莉萍,沈剑文,王海生.基于协同过滤的医院图书馆数据库文本分类优化技术[J].微型电脑应用,2024,40(2):146-148.
5梁译方,季铎.基于文本分类模型的公安民情分类[J].网络安全技术与应用,2024(2):48-51. 被引量：1
6马季收,王华,王岩.炼化企业智能生产指挥系统研发与应用[J].化工管理,2024(33):89-92.

二级引证文献11

1周岳亮,李宗阳,李绍铭.基于文本的网络安全事件检测技术研究与探索[J].自动化与仪器仪表,2023(8):79-82. 被引量：2
2桂婷,马子璇,梁泽.基于BERT-CNN模型的微博文本情感分类研究[J].网络安全技术与应用,2023(11):34-35. 被引量：5
3袁钰喜,陈义安,刘晓慧.基于集成算法的在线购物平台消费者评价情感分析与研究[J].现代信息科技,2024,8(4):101-105.
4何朝霞,朱嵘涛,罗辉.基于F-DFCC融合特征的语音情感识别方法[J].现代电子技术,2024,47(6):131-136. 被引量：1
5王国隽,金宗安.面向不确定数据的关键词检索方法优化分析[J].电子技术（上海）,2024,53(1):106-107.
6于爱莲,李亚峰.融合迁移学习的Bi-LSTM自动翻译系统设计[J].自动化与仪器仪表,2024(2):187-190.
7丁诗琪,陈正奎,黄海.基于数据流图和混合网络模型的智能合约漏洞检测[J].软件工程,2025,28(1):52-56.
8张颖.基于Self-Attention与Bi-LSTM的大学生情感倾向研究[J].软件导刊,2024,23(12):53-57.
9杨育红.基于改进知识图谱的开放域生成式人机翻译系统研究[J].自动化与仪器仪表,2025(1):323-327.
10蔡翔宇.餐饮服务评价情感倾向分析——基于不同分类模型的比较[J].应用数学进展,2023,12(3):940-952.

1王玉金.大班亲子阅读活动现状分析与支持策略初探[J].教师,2022(18):78-80. 被引量：2
2胡聪,徐敏,洪德华,刘翠玲,薛晓茹,王海鑫.基于改进K-medoids聚类和SVM的异常用电模式在线检测方法[J].国外电子测量技术,2022,41(2):53-59. 被引量：12
3陈婷.浅谈信息技术在小学语文教学中的应用[J].传奇故事,2022(31):17-18.
4王红英.让语文课堂书声朗朗——落实课堂高效性之我见[J].启迪,2022(20):82-84.
5刘瑞.面向热点法律案件舆情分析算法的研究[J].现代科学仪器,2022,39(3):237-241.

计算机技术与发展

2022年第7期

浏览历史

内容加载中请稍等...

基于深度学习和支持向量机的文本分类模型被引量：6

参考文献12

二级参考文献107

共引文献309

同被引文献49

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于深度学习和支持向量机的文本分类模型 被引量：6

参考文献12

二级参考文献107

共引文献309

同被引文献49

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于深度学习和支持向量机的文本分类模型被引量：6