基于频繁项集的多标签文本分类算法被引量：4

Multi-label Text Classification Algorithm Based on Frequent Item Sets

下载PDF

导出

摘要针对多标签文本分类问题,提出基于频繁项集的多标签文本分类算法——MLFI。该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后利用挖掘到的类别之间的关联规则对分类结果进行校验。实验结果表明,该算法有较高的分类性能。 Aiming at the problem of multi-label text classification,this paper proposes a multi-label text classification algorithm based on frequent item sets.It uses FP-growth algorithm for mining frequent item sets between labels,calculates prototype vector and similarity threshold for each class,if the similarity between prototype vector and text are greater than the corresponding threshold,then classifies the text into corresponding category.After classifying,the association rules between the class are utilized to verify the result of classification.Experimental results show that the algorithm has a higher ability of classification performance.

作者吕小勇石洪波

机构地区山西财经大学信息管理学院

出处《计算机工程》 CAS CSCD 北大核心 2010年第15期83-85,共3页 Computer Engineering

基金国家自然科学基金资助项目(60873100) 山西省自然科学基金资助项目(2009011017-4)

关键词多标签相似度频繁项集关联规则 multi-label similarity frequent item sets association rules

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1Joachims T.Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C]//Proc.of European Conf.on Machine Learning.Chemnitz,Germany:[s.n.],1998.
2Schapire R E,Singer Y.Boostexter:A Boosting-based System for Text Categorization[J].Machine Learning,2000,39(2/3):135-168.
3Zhang Mingling,Zhou Zhihua.Multi-label Learning by Instance Differentiation[C]//Proc.of the 22nd AAAI Conference on Artificial Intelligence.Vancouver,Canada:[s.n.],2007.
4姜远,佘俏俏,黎铭,周志华.一种直推式多标记文档分类方法[J].计算机研究与发展,2008,45(11):1817-1823. 被引量：10
5眭俊明,姜远,周志华.基于频繁项集挖掘的贝叶斯分类算法[J].计算机研究与发展,2007,44(8):1293-1300. 被引量：12
6Uden M.Rocchio:Relevance Feedback in Learning Classification Algorithms[C]//Proc.of ACM SIGIR Conference on Research and Development in Information Retrieval.Melbourne,Australia:[s.n.],1998.

二级参考文献37

1姜远,周志华.基于词频分类器集成的文本分类方法[J].计算机研究与发展,2006,43(10):1681-1687. 被引量：22
2薛晓冰,韩洁凌,姜远,周志华.基于多示例学习技术的Web目录页面链接推荐[J].计算机研究与发展,2007,44(3):406-411. 被引量：6
3Schapire R E, Singer Y. Boostexter: A boosting-based system for text categorization [J]. Machine Learning, 2000, 39(2/3) : 135-168
4McCallum A. Multi-label text classification with a mixture model trained by EM [C]//Working Notes of the AAAI'99 Workshop on Text Learning. Menlo Park, CA.-AAAI Press, 1999
5Ueda N, Saito K. Parametric mixture models for multilabeled text [C]//Beeker S, Thrun S, Obermayer K. Advances in Neural Information Processing Systems 15 (NIPS'02). Cambridge, MA:MIT Press, 2003:721-728
6De Comite F, Gilleron R, Tommasi M. Learning multi label alternating decision trees from texts and data [C] //Proc of the 3rd Int Conf on Machine Learning and Data Mining in Pattern Recognition (MLDM'03). Berlin: Springer, 2003: 35-49
7Zhang M-L, Zhou Z-H. Multi-label neural networks with applications to functional genomics and text categorization[J]. IEEE Trans on Knowledge and Data Engineering, 2006, 18(10): 1338-1351
8Zhang M L, Zhou Z-H. ML-kNN: A lazy learning approach to multi-label learning [J]. Pattern Recognition, 2007, 40 (7) : 2038-2048
9Elisseeff A, Weston J. A kernel method for multi-labelled classification [C]//Dietterich T G, Becker S, Ghahramani Z. Advances in Neural Information Processing Systems 14 (NIPS'01). Cambridge, MA: MIT Press, 2002:681-687
10Boutell M R, Luo J, Shen X, et al. Learning multi-label scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771

共引文献20

1吴宁,柏春霞,祝毅博.一种应用关联规则森林的改进贝叶斯分类算法[J].西安交通大学学报,2009,43(2):48-52. 被引量：5
2柳永坡,吴际,金茂忠,杨海燕,贾晓霞,刘雪梅.基于贝叶斯统计推理的故障定位实验研究[J].计算机研究与发展,2010,47(4):707-715. 被引量：9
3魏维,魏敏,刘凤玉.概念间关联依赖多标记视频语义概念分类方法[J].中国图象图形学报,2010,15(6):893-899.
4孔祥南,黎铭,姜远,周志华.一种针对弱标记的直推式多标记分类方法[J].计算机研究与发展,2010,47(8):1392-1399. 被引量：13
5肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
6秦锋,黄俊,程泽凯.用于多标记学习的阈值确定算法[J].计算机工程,2010,36(21):214-216. 被引量：1
7周雒维,管春,卢伟国.多标签分类法在电能质量复合扰动分类中的应用[J].中国电机工程学报,2011,31(4):45-50. 被引量：35
8Wei-Guo Yi,Jing Duan,Ming-Yu Lu.Double-layer Bayesian Classifier Ensembles Based on Frequent Itemsets[J].International Journal of Automation and computing,2012,9(2):215-220. 被引量：3
9唐磊,李春平,杨柳.统计策略序列模式挖掘及其在软件缺陷预测中的应用[J].计算机科学,2013,40(5):164-167. 被引量：1
10王东,熊世桓,向程冠,靳宁.基于频繁2-项集的贝叶斯分类器[J].兰州理工大学学报,2013,39(4):99-104. 被引量：2

同被引文献25

1陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J].现代图书情报技术,2005(10):23-27. 被引量：9
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
3Feng Yazhong, Zhuang Yueting, Pan Yunhe. Music Information Retrieval by Detecting Mood via Computational Media Aesthetics[C]//Proc. of IEEE/WC Int’l Conf. on Web Intelligence. Halifax, Canada: [s. n.], 2003.
4Trohidis K. Multi-label Classification of Music into Emotions[C]// Proc. of the 9th Int’l Conf. on Music Information Retrieval. Philadelphia, USA: [s. n.], 2008.
5Yang Yi-Hsuan, Lin Yu-Ching. A Regression Approach to Music Emotion Recognition[J]. IEEE Trans. on Audio, Speech and Language Processing, 2008, 16(2): 448-457.
6Turnbull D. Semantic Annotation and Retrieval of Music and Sound Effects[J]. IEEE Trans. on Audio, Speech, and Language Processing, 2008, 16(2): 467-476.
7Hu Yajie, Chen Xiaoou, Yang Deshun. Lyric-based Song Emotion Detection with Affective Lexicon and Fuzzy Clustering Method[C]//Proc. of the 10th Int’l Conf. on Music Information Retrieval. Kobe, Japan: [s. n.], 2009.
8Zhang Minling, Zhou Zhihua. Ml-knn: A Lazy Learning Approach to Multi-label Learning[J]. Pattern Recognition, 2007, 40(7): 2038- 2048.
9Boutell M R, Luo Jiebo, Shen Xipeng, et al. Learning multi-label scene classification[J] . Pattern Recognition, 2004, 37(9):1757-1771.
10Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[M] //Maimon O, Rokach L. Data Mining and Knowledge Discovery Handbook. Berlin:Springer, 2010:667-686.

引证文献4

1孙向琨,邓伟.结合TF-IDF的歌曲情感多标记分类[J].计算机工程,2011,37(19):189-190. 被引量：4
2刘卓然,胡杨,刘骊,冯旭鹏,刘利军,黄青松.基于标签相似度的不良信息多标签分类方法[J].计算机应用研究,2016,33(4):989-992. 被引量：8
3邓三鸿,傅余洋子,王昊.基于LSTM模型的中文图书多标签分类研究[J].数据分析与知识发现,2017,1(7):52-60. 被引量：28
4梁睿博,王思远,李壮,刘亚松.基于RAKEL算法的商品评论多标签分类研究与实现[J].软件工程,2019,22(1):8-11. 被引量：3

二级引证文献43

1黄元元.改进型TF-IDF算法在客户关系管理系统中的应用[J].湖北第二师范学院学报,2014,31(8):38-40.
2林志宏,池宏,许保光.基于卷积神经网络的公安案件文本语义特征提取方法研究[J].数学的实践与认识,2017,47(17):127-140. 被引量：4
3樊强.大数据环境下安全信息优化保护仿真[J].计算机仿真,2018,35(6):176-179. 被引量：4
4宁琳,孙艳红.多媒体网络不良信息过滤方法仿真[J].计算机仿真,2018,35(7):343-346. 被引量：1
5韩栋,王春华,肖敏.结合旋转森林和Ada Boost分类器的多标签文本分类方法[J].计算机应用研究,2018,35(12):3655-3658. 被引量：10
6姚哲,陶剑文.多源适应多标签分类框架[J].计算机工程与应用,2017,53(7):88-96. 被引量：24
7姜垚松,马敬东,赵冬,罗玮,倪维斌,夏晨曦.基于长短期记忆模型的患者投诉自动分类研究[J].中华医学图书情报杂志,2018,27(6):16-21. 被引量：1
8杨敏.基于文本识别的图书智能管理[J].自动化技术与应用,2018,37(12):145-150. 被引量：1
9张轼坤,沈峰,高列宁,周云康.基于词向量的国际业务实时推理模型[J].信息技术与网络安全,2019,38(5):85-91. 被引量：1
10王健.文档数据库结构信息分类筛查方法仿真[J].计算机仿真,2019,36(5):417-420. 被引量：3

1田正军,张鸿彦.文本自动分类在邮件过滤系统中的应用[J].郑州经济管理干部学院学报,2005,20(2):90-92.
2杨佳,张金广,杨龙,江萍,魏晓莉.基于本体概念集合相似度的语义Web服务匹配[J].计算机技术与发展,2012,22(8):56-59. 被引量：1
3陈蔚,贾民平.距离函数分类法在制粉系统故障诊断中的应用[J].振动．测试与诊断,2009,29(3):282-286. 被引量：1
4田丰,桂小林,杨攀,王刚,郭岳龙.采用类别相似度聚合的关联文本分类方法[J].西安交通大学学报,2012,46(12):6-11. 被引量：8
5周炎涛,唐剑波,吴正国.基于向量空间模型的多主题Web文本分类方法[J].计算机应用研究,2008,25(1):142-144. 被引量：14
6张铸,刘军正.创建AutoCAD线型方法[J].河北煤炭,2008(2):17-18.
7陶跃华.基于向量的相似度计算方案[J].云南师范大学学报（自然科学版）,2001,21(5):17-19. 被引量：29
8张志涌.简练模型结构的辨识[J].控制理论与应用,1992,9(5):459-465.
9张光卫,李德毅,李鹏,康建初,陈桂生.基于云模型的协同过滤推荐算法[J].软件学报,2007,18(10):2403-2411. 被引量：197
10薛明银,钟伯成,杨周顺,冯理想,汪福成,向云锴.基于智能手机的老年人跌倒预警系统实现[J].电脑编程技巧与维护,2016(9):43-44. 被引量：3

计算机工程

2010年第15期

浏览历史

内容加载中请稍等...

基于频繁项集的多标签文本分类算法被引量：4

参考文献6

二级参考文献37

共引文献20

同被引文献25

引证文献4

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于频繁项集的多标签文本分类算法 被引量：4

参考文献6

二级参考文献37

共引文献20

同被引文献25

引证文献4

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于频繁项集的多标签文本分类算法被引量：4