基于LDA模型的文本分类研究被引量：57

Research on text categorization based on LDA

下载PDF

导出

摘要针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 When the text corpuses are high-dimensional and large-scale,the traditional dimension reduction algorithms will expose their limitations.A Chinese text categorization algorithm based on LDA is presented.In the discriminative frame of Support Vector Machine（SVM）,Latent Dirichlet Allocation（LDA） is used to give a generative probabilistic model for the text corpus,which reduces each document to fixed valued features——The probabilistic distribution on a set of latent topics.Gibbs sampling is used for parameter estimation.In the process of modeling the corpus,a latent topics-document matrix associated with the corpus has been constructed for training SVM.Standard method of Bayes is used for reference to get the best number of topics.Compared to Vector Space Model（VSM） for text expression combined SVM and the classifier based on Latent Semantic Indexing（LSI） combined SVM,the experimental result shows that the proposed method for text categorization is practicable and effective.

作者姚全珠宋志理彭程

机构地区西安理工大学计算机科学与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页 Computer Engineering and Applications

关键词文本分类潜在狄利克雷分配(LDA)模型 GIBBS抽样贝叶斯统计理论 text categorization Latent Dirichlet Allocation （LDA） Gibbs sampling Bayes statistics theory

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
2伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
3Deerwester S,Dumais S T A.lndexing by latent semantic analysis[J] Journal of the Society for Information Science,1990,41(6).
4Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5).
5Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(1).
6Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machine[EB/OL].(2001).http://www.csie.ntu.edu.tw/～cjlin/libsvm.

二级参考文献10

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：100
4LIU Tao,LIU Sheng-ping,CHEN Zheng.An evaluation on feature selection for text clustering[C]∥ Proceedings of the 20th International Conference on Machine Learning (ICML203).Washington DC.:2003:488-495.
5YANG Yiming.A comparative study on feature selection in text categorization[C]∥Proceeding of the Fourteenth International Conference on Machine Learning (ICMLp97).San Francisco:Morgan Kaufmann Publishers,1997:412-420.
6GALAVOTTI Luigi,SEBASTIANI Fabrizio.Feature selection and negative evidence in automated text categorization[C]∥ Proceedings of the ACM KDD-00 Workshop on Text Mining.New York,US:ACM Press,2000:40-42.
7DEERWESTER S,DUMAIS S,FURNAS D.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
8DOUGLAS BAKER L,MCCALLUM Andrew Kachites.Distributional clustering of words for text classification[C]∥ Proceedings of SIGIR-98,21st ACM International Conference on Research and Development in Information Retrieval.New York,US:ACM Press,1998:96-103.
9YANG Yi-ming.Expert network:Effective and efficient learning from human decisions in text categorization and retrieval[C]∥ Proceedings of the 7 th Annual International ACN-SIGIR Conference on Research and Development in Information Retrieval.Dublin:Springer Verlag,1994:13-22.
10陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量：88

共引文献393

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：7
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

同被引文献474

1刘立新,张凯(译).德国《职业教育法(BBiG)》——2019年修订版[J].中国职业技术教育,2020,0(4):16-42. 被引量：41
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4方匡南,吴见彬,朱建平,谢邦昌.信贷信息不对称下的信用卡信用风险研究[J].经济研究,2010,45(S1):97-107. 被引量：64
5张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
6王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
7林鸿飞,杨元生.用户兴趣模型的表示和更新机制[J].计算机研究与发展,2002,39(7):843-847. 被引量：23
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
9刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
10姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68

引证文献57

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2贺喜,蒋建春,丁丽萍,王永吉,廖晓峰.基于LDA模型的主机异常检测方法[J].计算机应用与软件,2012,29(8):1-4. 被引量：5
3李冬睿,李梅.基于潜在狄利克雷分配的图像多层视觉表示方法[J].计算机应用,2013,33(8):2310-2312.
4吴晓萍,赵学靖,乔辉,刘东梅,王志.基于LASSO-SVM的软件缺陷预测模型研究[J].计算机应用研究,2013,30(9):2748-2751. 被引量：16
5温腊,芮建武,何婷婷,郭亮.利用并行GPU对分层分布式狄利克雷分布算法加速[J].计算机应用,2013,33(12):3313-3316. 被引量：2
6王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：99
7邵洲,张晖.基于完全稀疏主题模型的多文档自动摘要[J].计算机工程与设计,2014,35(3):1032-1036. 被引量：1
8李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12
9谈成访,汪材印.基于LDA模型的新闻话题分类研究[J].电脑知识与技术,2014(6):3795-3797. 被引量：1
10孙梅,王超.大容量内存系统的管理[J].电脑知识与技术,2014(6):3821-3823.

二级引证文献618

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：1
2丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：6
3陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
4王劲,孙瑞英.主题聚类视域下地方公共数据管理政策完备性分析[J].知识管理论坛,2024(1):65-78.
5孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
6周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
7龙艺璇,伊惠芳.国内外公共政策文本分析中主题模型应用研究进展[J].知识管理论坛,2020(5):305-316. 被引量：2
8吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：10
9杨金庆,吴乐艳,魏雨晗,陆伟,罗威.科技文献新兴话题识别研究进展[J].情报学进展,2020(1):202-234. 被引量：3
10祁颖,张涛.国内外人文社科领域跨学科研究:文献主题对比与中国路径选择[J].情报科学,2023,41(12):81-90. 被引量：4

1许两有,许珠香.潜在狄利克雷分配模型在网络日志的应用[J].厦门大学学报（自然科学版）,2013,52(4):455-458.
2沈可,王芬,张超,曾宪涛.应用OpenBUGS软件实现网状Meta分析[J].湖北医药学院学报,2013,32(6):476-479. 被引量：10
3许珠香,江弋.基于潜在狄利克雷分配模型的医疗数据研究[J].厦门大学学报（自然科学版）,2013,52(3):356-359. 被引量：2
4唐立,王同洋,尹文生,张新访.面向集成的装配建模[J].中国海洋平台,1998,13(2):27-30.
5马跃渊,徐勇勇.Gibbs抽样算法及软件设计的初步研究[J].计算机应用与软件,2005,22(2):124-126. 被引量：10
6唐立,王同洋,尹文生,张新访,周济.面向集成的装配建模[J].机械与电子,1998(2):36-38. 被引量：1
7张泊平,程菊明.基于贝叶斯理论的软件可靠性评估方法研究[J].电子质量,2007(12):43-47. 被引量：1
8王文霞.一种基于LSA与FCM的文本聚类算法[J].山西大同大学学报（自然科学版）,2016,32(1):8-11.
9陈兴蜀,高悦,江浩,杜敏,王海舟,何建云.基于OLDA的热点话题演化跟踪模型[J].华南理工大学学报（自然科学版）,2016,44(5):130-136. 被引量：18
10尹丽丽,张丽萍,王春晖,涂颖,刘东升.基于潜在狄利克雷分配模型预测克隆代码不一致变化的可能性[J].计算机应用,2014,34(6):1788-1791. 被引量：3

计算机工程与应用

2011年第13期

浏览历史

内容加载中请稍等...

基于LDA模型的文本分类研究被引量：57

参考文献6

二级参考文献10

共引文献393

同被引文献474

引证文献57

二级引证文献618

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的文本分类研究 被引量：57

参考文献6

二级参考文献10

共引文献393

同被引文献474

引证文献57

二级引证文献618

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的文本分类研究被引量：57