一种新的文本分类算法设计与实验研究

New text classification algorithm design and its experiment

下载PDF

导出

摘要文中引入了CHAMELEON聚类来产生广义实例,采用带回溯的广义实例文本分类算法实现了模型改进和文本分类运算时间的显著提高。对两个语料库文档数据实验中验证表明,改进带回溯算法在两个语料库上都达到了与传统KNN分类算法相同的精度;带回溯的算法执行速度提高了10倍,在语料库上提高了8倍;在Tan语料库上带回溯算法比SVM文本算法精度高出3个百分点。上述研究对信息领域的大数据存储有明显的借鉴意义。 This paper introduces the CHAMELEON clustering to produce generalized instance,the use of backtracking generalized instance of the text classification algorithm to achieve the improved model,to achieve a significantly improved text categorization computation time. Two corpora document data validation experiments show improved backtracking algorithms on two corpora reached the same with the traditional KNN classification algorithm accuracy; backtracking algorithm execution speeds up to 10 times in the corpus increased 8-fold; Tan in corpus higher than SVM algorithm with backtracking algorithm precision text three percentage points. The study of information in the field of big data storage has obvious reference.

作者杨全海

机构地区陕西职业技术学院

出处《信息技术》 2016年第4期109-113,共5页 Information Technology

关键词广义实例实例文本 GIS算法执行速度精度 generalized instance instance text GIS algorithm execution speed accuracy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1吴鹏,李思昆.适于社会网络结构分析与可视化的布局算法[J].软件学报,2011,22(10):2467-2475. 被引量：19
2Pei Zhili,Shi Xiaohu,Maurizio Marchese,Liang Yanchun.An enhanced text categorization method based on improved text frequency approach and mutual information algorithm[J].Progress in Natural Science:Materials International,2007,17(12):1494-1500. 被引量：2
3耿文静,吴渝.可视化技术及其在复杂网络上的研究与应用现状[J].数字通信,2012,39(4):27-33. 被引量：5
4李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
5Yan Peng,Zheng Xuefeng,Zhu Jianyong,Xiao Yunhong.Lazy learner text categorization algorithm based on embedded feature selection[J].Journal of Systems Engineering and Electronics,2009,20(3):651-659. 被引量：1
6李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
7Min DU,Xing-shu CHEN.Accelerated k-nearest neighbors algorithm based on principal component analysis for text categorization[J].Journal of Zhejiang University-Science C(Computers and Electronics),2013,14(6):407-416. 被引量：3
8梁辰,徐健.社会网络可视化的技术方法与工具研究[J].现代图书情报技术,2012(5):7-15. 被引量：40
9周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
10PING Yuan,ZHOU Ya-jian,XUE Chao,YANG Yi-xian.Efficient representation of text with multiple perspectives[J].The Journal of China Universities of Posts and Telecommunications,2012,19(1):101-111. 被引量：1

二级参考文献247

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
4苏勇.信息可视化中赋权树形图的绘制实现方法[J].现代图书情报技术,2006(11):73-76. 被引量：2
5王柏,吴巍,徐超群,吴斌.复杂网络可视化研究综述[J].计算机科学,2007,34(4):17-23. 被引量：44
6Lewis D. D.. An evaluation of phrasal and clustered representalions on a text categorization task. In: Proceedings of SIGIR'92,the 15st ACM International Conference on Research and Development in Information Retrieval, Copenhagen, Denmark,1992, 37-50.
7Sebastiani F,. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1-47.
8Lewis D.. Naive bayes at forty: The independence assumption in information retrieval. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998,4-15.
9Salton G.. Automatic Text Processing: The Transformation,Analysis, and Retrieval of Information by Computer. Reading,MA: Addison Wesley, 1989.
10Mitchell T. M.. Machine Learning. New York: McCraw Hill,1996.

共引文献523

1张宏邦,陶艺.区隔与认同:影评社群话语阐释[J].现代传播（中国传媒大学学报）,2021(3):96-103.
2陆亮,孔芳.面向对话的融入交互信息的实体关系抽取[J].中文信息学报,2021,35(8):82-88. 被引量：4
3孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
6吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102. 被引量：1
7蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
8黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
9刘海峰,王元元,王倩.基于特征选择的文本分类方法评述[J].情报科学,2007,25(z1):193-196.
10尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.

1董文婷,刘定生,赵灵军.基于MPI的新型GRASS并行处理技术与体系结构研究[J].遥感信息,2013,28(1):102-109. 被引量：4
2谷宇航,赵伟,李力,张昊,孟莹.基于OpenMP的矢量空间数据并行拓扑算法设计与实现[J].测绘工程,2015,24(11):22-27. 被引量：1
3许力,陈江勇.基于遗传算法的数据流测试用例自适应生成算法[J].计算机系统应用,2013,22(7):90-94. 被引量：7
4赵红超,方金云,唐志敏.STL算法在GIS中的应用[J].计算机工程,2006,32(8):70-72. 被引量：3
5胡军国,祁亨年,董峰,计智伟.基于ARM-Linux的嵌入式GIS关键技术研究[J].计算机应用与软件,2010,27(12):92-94. 被引量：3
6袁华,寇卫利,宋娅丽.基于遗传算法GIS城市区域规划优化研究[J].电脑知识与技术,2011,7(1):202-203.
7陈英,王承志.基于八叉树GIS算法森林建模方法研究[J].计算机仿真,2011,28(12):285-288.
8胡勇,孙惠,罗文,袁林旺.几何代数GIS计算引擎的设计与实现[J].地理与地理信息科学,2015,31(1):27-31. 被引量：2
9刘文宝,邓敏,夏宗国.矢量GIS图上地理曲线的定位误差模型[J].遥感学报,2000,4(4):316-31. 被引量：8
10袁林旺,闾国年,罗文,俞肇元,易琳,盛业华.GIS多维统一计算的几何代数方法[J].科学通报,2012,57(4):282-290. 被引量：11

信息技术

2016年第4期

浏览历史

内容加载中请稍等...

一种新的文本分类算法设计与实验研究

参考文献16

二级参考文献247

共引文献523

相关作者

相关机构

相关主题

浏览历史