基于规则的自动分类在文本分类中的应用被引量：20

Rule-based Automatic Category Application on Text Category

下载PDF

导出

摘要文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统。 The technique of text automatic category is to classify texts into one or more classes according to some strategy.This paper firstly reports three kinds of technique of text automatic category based on statistic ( k nearest neighbor ,support vector machine and nave bayes),and analyses their advantages and disadvantages.The weakness of statistic based automatic category is the category precision decrease while the character intersect within classes increase, especially in the case of multi layers classifying. In order to improve statistic based automatic category performance, rule based automatic category is used. we combine statistic based category with rule based classifying method , design and realize a system of mixing category lastly, which has and has had very good performance in category.

作者李渝勤孙丽华

机构地区北京信息工程学院 TRS信息技术有限公司

出处《中文信息学报》 CSCD 北大核心 2004年第4期9-14,共6页 Journal of Chinese Information Processing

关键词计算机应用中文信息处理文本挖掘文本分类规则分类 computer application Chinese information processing text mining text category rule based classifying

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Ji He, Ah-Hwee Tan, Chew-Lim Tan.A Comparative Study on Chinese Text Categorization Methods[J].PRICAI Workshop on Text and Web Mining.2000,24-35.
2Thorsten Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Feature.Proceedings of ECML-98,10th European Conference on Machine Learning[A]. In: Proceedings of ECML-98, 10th European Conference on Machine Learning[C].Cl
3黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：52
4岳喜才,伍晓宇,郑崇勋,叶大田.一种大类别数分类的神经网络方法[J].计算机研究与发展,2000,37(3):278-283. 被引量：7
5孙学刚,陈群秀,马亮.基于主题的Web文档聚类研究[J].中文信息学报,2003,17(3):21-26. 被引量：31
6李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13. 被引量：16
7王伟强,高文,段立娟.Internet上的文本数据挖掘[J].计算机科学,2000,27(4):32-36. 被引量：60
8刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量：27

二级参考文献19

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2李辉.支撑向量机及其在文本分类中的应用，北京大学博士论文[M].,2001..
3Peter Cord等邵维忠等（译）.Object-Oriented Analysis.Yourdon Press[M].北京:北京大学出版社,1992.65-77.
4[1]Warren R Greiff. A Theory of Term Weighting Based on Exploratory Data Analysis, www. cs. umass.edu/～ greiff/
5[2]Kaski S, Lagus K, Honkela T et al. Statistical Aspects of the WFEBSOM System in Organizing Document Collections. Computer Science and Statistics, 1998, (29) :281 - 290
6M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases. In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96),1996.
7M. Ankerst, M. Breunig, H. -P. Kriegel, and J. Sander. OPTICS: Ordering points to identify the clustering structure. In Proc. 1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD' 99),1999.
8Yang, Y., Pedersen, J.O. A Comparative Study on Feature Selection in Text Categorization. Proc. of the 14th International Conference on Machine Learning ICML97.
9Eui-Hong Han, George Karypis and Vipin Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification. Pacific-Asia Conference on Knowledge Diseovery and Data Minings, 2001.
10Yang Y，Proc of the 14th Intl Conf on Machine Learning ICML 97，1997年，412页

共引文献179

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
3贺国旗,张强.基于用户模型的文献检索研究[J].雁北师范学院学报,2002,18(5):29-32. 被引量：1
4张云涛,龚玲,王永成.基于主成分分析的文本检索结果集的排序和聚类[J].计算机科学,2002,29(z1):45-46.
5王洪,贾惠波,徐端颐.基于中文学术期刊人工标引的自动分类新算法[J].现代图书情报技术,2002(S1):59-62. 被引量：1
6吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102. 被引量：1
7岳喜才,叶大田,管桦.多分类问题的RBF二叉神经树网络方法[J].空军工程大学学报（自然科学版）,2000,1(1):34-39. 被引量：1
8姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
9赵武生,田金超,申连洋,罗奇.自适应过滤算法在基于社区E-learning的个性化知识服务系统中的研究[J].清华大学学报（自然科学版）,2007,47(z2):1910-1913. 被引量：3
10徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007,44(z2):356-360. 被引量：13

同被引文献216

1刘逸竹,李晴,吴文斌.遥感提取灌溉耕地的特征优选——以中国北方为例[J].中国农业资源与区划,2021,42(9):27-35. 被引量：2
2谭春辉,谢荣,刘倩.政策工具视角下的我国政府信息公开政策文本量化研究[J].电子政务,2020,0(2):111-124. 被引量：28
3习妍,孔丽华,姜璐璐.科技期刊融合出版中网络平台效能的发挥——以《中国科学数据(中英文网络版)》为例[J].编辑学报,2019,31(S02):169-173. 被引量：5
4杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
5刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
6钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
7徐朝军.基础教育资源目录系统的设计与实现[J].电化教育研究,2009,30(3):71-75. 被引量：3
8郑丽,潘建平.基于数学形态学的遥感图像道路提取[J].铁道勘察,2010,36(1):12-15. 被引量：5
9黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
10李国栋,李卫.基于文本分类技术的垃圾邮件识别系统[J].微电子学与计算机,2004,21(6):145-146. 被引量：10

引证文献20

1徐朝军.基础教育资源目录系统的设计与实现[J].电化教育研究,2009,30(3):71-75. 被引量：3
2王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
3邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
4蔡代纯,谭新良.文本自动分类技术及其对图书馆学的影响[J].现代情报,2006,26(9):13-14. 被引量：4
5谭金波.基于本体实现网页规则分类的方法[J].现代图书情报技术,2007(3):39-42.
6王继明,杨国林.Web挖掘技术及其在网站管理中的应用[J].内蒙古师范大学学报（自然科学汉文版）,2007,36(2):188-191. 被引量：1
7谭金波,杨晓江,李艺.基于统计-规则方法的网页层次分类技术研究[J].现代图书情报技术,2007(8):59-62.
8刘磊,刘克彬,韩颖,李芳.基于两次分类的校友搜索系统的设计与实现[J].小型微型计算机系统,2007,28(10):1916-1920.
9施聪莺,徐朝军,杨晓江.基于规则和Rocchio分类器的学前综合教育资源分类[J].现代图书情报技术,2009(7):75-79. 被引量：1
10徐朝军.基于主题搜索的通用教学资源共享平台设计[J].中国远程教育,2010(5):64-66. 被引量：5

二级引证文献196

1张昱,罗年学.互联网突发事件监测信息分类方法研究[J].数字制造科学,2022(1):75-80.
2吴锋文.汉语“三标四句式”充盈态复句的句法语义关系判定[J].华中学术,2020(1):189-200.
3张登科,易秀双,王兴伟.一种基于相似度测量的新垃圾邮件发现机制[J].中国海洋大学学报（自然科学版）,2008,38(S1):147-150. 被引量：1
4刘洋,曹津宁,刘昊,秦玉平.基于贝叶斯方法的垃圾邮件处理模型研究[J].长春工程学院学报（自然科学版）,2007,8(3):75-76.
5张平.追求[J].就业与保障,2005(11):1-1.
6王金宝.基于增量学习和阈值优化的自适应信息过滤研究[J].计算机应用,2006,26(5):1099-1101.
7庄锁法,陈兴梅.客户端防范垃圾邮件策略的探讨[J].电脑知识与技术,2006(8):172-172.
8张洪军,段会川.基于支持向量机的电子邮件分类模型设计[J].信息技术与信息化,2006(5):89-90. 被引量：1
9徐卫.一种垃圾邮件过滤网关的设计[J].电脑知识与技术,2006(12):64-65.
10黄鹏鹤.垃圾邮件内容过滤测试平台的设计与实现[J].仪器仪表用户,2007,14(1):93-94.

1恽俊,唐屹.Snort系统的动态配置研究[J].广州大学学报（自然科学版）,2007,6(1):20-24. 被引量：3
2王志刚,李宗福.决策树技术在基于Web入侵检测技术中的应用研究[J].计算机光盘软件与应用,2010(1):23-25.
3武建华,沈均毅,王元元.一种改进的关联分类算法[J].计算机工程,2009,35(9):63-65. 被引量：6
4张垒磊,刘胜辉.铁路运输信息数据分类算法的研究与实现[J].信息技术,2005,29(7):70-73.
5程柏良,周洪波,钟林辉.基于异常与误用的入侵检测系统[J].计算机工程与设计,2007,28(14):3341-3343. 被引量：11
6朱红斌,蔡郁.基于支持向量机的多层分类入侵检测系统研究[J].丽水学院学报,2008,30(2):54-57.
7查金水,宋良图,刘现平.一种基于关联规则分类的改进方法[J].计算机工程与应用,2006,42(10):155-157.
8王直杰,方建安,邵世煌.分类器系统综述[J].中国纺织大学学报,1997,23(1):97-104.
9杨霞,董红斌,张海玉,.基于分布估计算法的朴素贝叶斯分类问题研究[J].电脑知识与技术（过刊）,2010,0(13):2704-2705. 被引量：2
10张昭理,洪帆,肖海军.一种防火墙规则冲突检测算法[J].计算机工程与应用,2007,43(15):111-113. 被引量：9

中文信息学报

2004年第4期

浏览历史

内容加载中请稍等...

基于规则的自动分类在文本分类中的应用被引量：20

参考文献8

二级参考文献19

共引文献179

同被引文献216

引证文献20

二级引证文献196

相关作者

相关机构

相关主题

浏览历史

基于规则的自动分类在文本分类中的应用 被引量：20

参考文献8

二级参考文献19

共引文献179

同被引文献216

引证文献20

二级引证文献196

相关作者

相关机构

相关主题

浏览历史

基于规则的自动分类在文本分类中的应用被引量：20