基于改进三体训练法的半监督专利文本分类方法被引量：10

Semi-supervised patent text classification method based on improved Tri-training algorithm

下载PDF

导出

摘要针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性.针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用.实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力. An improved information gain(IG)algorithm was proposed,in order to solve the problem that the IG algorithm can only be used to investigate the contribution of features to the whole system,but not for a single category.The weight coefficient is introduced to adjust the information gain values of features important for classification,so the inhomogeneity of distribution of a word among categories can be better considered.A semisupervised classification method based on the improved Tri-training algorithm was proposed,aiming at the bottleneck problem of training set labeling in traditional patent automatic classification.The prediction probability thresholds of the same unlabeled sample’s category of three classifiers are dynamically changed by tracking the distribution of sample categories of training sets after each iteration.As a result,the influence of noise data is reduced and the full advantage of the unmarked training samples is achieved.Results indicate that the proposed classification method has positive automatic classification effect in the case of fewer labeled training samples,and the generalization ability of the classifier can be improved through appropriately increasing unlabeled sample data.

作者胡云青邱清盈余秀武建伟 HU Yun-qing;QIU Qing-ying;YU Xiu;WU Jian-wei(College of Mechanical Engineering,Zhejiang University,Hangzhou 310027,China)

机构地区浙江大学机械工程学院

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2020年第2期331-339,共9页 Journal of Zhejiang University：Engineering Science

基金国家自然科学基金资助项目(51075356).

关键词专利文本分类特征选择信息增益半监督三体训练算法 patent text classification feature selection information gain semi-supervised Tri-training algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法[J].计算机应用,2014,34(11):3279-3282. 被引量：16
2周志华.基于分歧的半监督学习[J].自动化学报,2013,39(11):1871-1878. 被引量：88
3张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6

二级参考文献93

1李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
2郑海清,林琛,牛军钰.一种基于紧密度的半监督文本分类方法[J].中文信息学报,2007,21(3):54-60. 被引量：11
3Yih W T, Meek C. Improving Similarity Measures for Short Segments of Text[C]. In: Proceedings of the 22nd National Conference on Artificial Intelligence. 2007: 1489-1494.
4Banerjee S, Ramanathan K, Gupta A. Clustering Short Texts Using Wikipedia[C]. In: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 2007: 787-788.
5Day N E. Estimating the Components of a Mixture of Normal Distributions[J]. Biometrika, 1969, 56(3): 463-474.
6Dempster A P, Laird N M, Rubin D B. Maximum Likelihood from Incomplete Data via the EM Algorithm[J]. Journal of the Royal Statistical Society: Series B, 1977, 39(1): 1-38.
7Shahshanani B M, Landgrebe D A. The Effect of Unlabeled Samples in Reducing the Small Sample Size Problem and Mitigating the Hughes Phenomenon[J]. IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5): 1087-1095.
8Nigam K, McCallum A, Mitchell T. Semi-supervised Text Classification Using EM[A]//Semi-supervised Learning[M]. Boston:MIT Press, 2006.
9Vapnik V N. Statistical Learning Theory[M]. Wiley-Interscience, 1998.
10JP3]Blum A, Chawla S. Learning from Labeled and Unlabeled Data Using Graph Mincuts[C]. In: Proceedings of the 18th International Conference on Machine Learning, Williamstown, USA. 2001: 19-26.

共引文献106

1麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：5
2刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
3赵建华.一种安全的基于分歧的半监督分类算法[J].西华大学学报（自然科学版）,2014,33(5):1-6. 被引量：2
4赵建华.基于SOM神经网络的半监督分类算法[J].西华大学学报（自然科学版）,2015,34(1):36-40. 被引量：7
5张国平,王宇东,马丽,黎远松.改进相关反馈技术在CBVR人体动作识别中的应用研究[J].激光杂志,2015,36(2):51-55.
6田淞,宋建社,张雄美,任伟龙.KM-SVM法的SAR图像无监督变化检测[J].系统工程与电子技术,2015,37(5):1042-1046. 被引量：7
7修宇,王骏,王忠群,刘三民.基于多图的交替优化图直推方法[J].计算机应用,2015,35(6):1611-1616.
8赵建华,刘宁.结合主动学习策略的半监督分类算法[J].计算机应用研究,2015,32(8):2295-2298. 被引量：7
9古平,吴庭君,文静云.基于概念与词根双特征互助文本分类模型[J].计算机与现代化,2015(8):93-97.
10刘宁,赵建华.一种多分类器协同的半监督分类算法SSC_MCC[J].河南科学,2015,33(9):1554-1558.

同被引文献101

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：11
2钱赛男,李英成,朱祥娥,刘晓龙.基于支持向量机的无序图像有序化研究[J].测绘科学,2020,45(2):111-116. 被引量：4
3周剑峰,阳爱民,刘吉财.基于改进的C4.5算法的网络流量分类方法[J].计算机工程与应用,2012,48(5):71-74. 被引量：19
4梁艳红,檀润华,马建红.面向产品创新设计的专利文本分类研究[J].计算机集成制造系统,2013,19(2):382-390. 被引量：18
5周志华.基于分歧的半监督学习[J].自动化学报,2013,39(11):1871-1878. 被引量：88
6肖进,刘潇潇,谢玲,刘敦虎,黄静.代价敏感的目标客户选择半监督集成模型研究[J].中国管理科学,2018,26(11):186-196. 被引量：4
7冯杭建,周爱国,唐小明,俞剑君.中国东南地区隐性滑坡遥感识别研究[J].地质论评,2014,60(6):1370-1380. 被引量：10
8黄发明,殷坤龙,张桂荣,唐志政,张俊.多变量PSO-SVM模型预测滑坡地下水位[J].浙江大学学报（工学版）,2015,49(6):1193-1200. 被引量：24
9刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：135
10李天彩,席耀一,王波,张佳明.一种改进的短文本层次聚类算法[J].信息工程大学学报,2015,16(6):743-748. 被引量：5

引证文献10

1余本功,汲浩敏.基于多粒度建模的半监督文本分类方法研究[J].现代情报,2021,41(6):42-53. 被引量：4
2邬少飞.互联网公开专利情报挖掘研究综述[J].武汉工程大学学报,2021,43(3):349-354.
3黄发明,潘李含,姚池,周创兵,姜清辉,常志璐.基于半监督机器学习的滑坡易发性预测建模[J].浙江大学学报（工学版）,2021,55(9):1705-1713. 被引量：18
4刘硕,王庚润,任玉媛.基于LOTClass模型的弱监督中文短文本分类算法[J].信息工程大学学报,2021,22(5):613-620.
5程盼,徐弼军.基于word2vec和logistic回归的中文专利文本分类研究[J].浙江科技学院学报,2021,33(6):454-460. 被引量：6
6李振宇,战洪飞,余军合,王瑞,邓慧君.基于深度学习的专利知识推荐服务研究[J].计算机工程与应用,2022,58(15):95-109. 被引量：5
7徐善亮,吕佳.基尼指数结合K均值聚类的协同训练算法[J].重庆师范大学学报（自然科学版）,2022,39(4):134-140. 被引量：1
8孙川钘,朱镕申,张凌云.基于Python技术的半监督文本语义分类方法研究[J].计算机仿真,2023,40(7):496-500. 被引量：1
9姜志宏,陈澳.融合全监督学习的半监督矿石粒度预测算法[J].黄金科学技术,2024,32(3):539-547.
10李道全,祝圣凯,翟豫阳,胡一帆.基于特征选择与改进的Tri-training的半监督网络流量分类[J].计算机工程与应用,2024,60(23):275-285.

二级引证文献35

1黄金源,孙若莹.大宗商品交易领域词典构建[J].北京信息科技大学学报（自然科学版）,2022,37(1):71-75. 被引量：1
2裘凯凯,丁伟杰,钟南江.基于ERNIE-SA-DPCNN的文本分类研究--以涉网新型犯罪案件文本为例[J].现代信息科技,2022,6(6):69-74.
3邵健,王霄,昌文峰,陈曦,张译.基于CatBoost算法的滑坡敏感性模型——以毕节市大方县为例[J].计算机与数字工程,2022,50(6):1365-1370. 被引量：3
4朱紫怡,周飞,王瑀,周统,侯照亮,邱昆峰.基于机器学习的锆石成因分类研究[J].地学前缘,2022,29(5):464-475. 被引量：8
5王国英.基于多粒度与动态词向量的机器翻译关键技术研究[J].自动化与仪器仪表,2022(9):181-185. 被引量：1
6戴夏菁,徐谊程,王馨娅,佟德宇.基于Word2Vec的中文文本零水印算法[J].软件工程,2023,26(1):19-23. 被引量：2
7琚沅红,牟冬梅,王书童,李桦,徐静雯,吕淑贞.少样本高质量医学知识的命名实体识别研究——以肺癌诊疗规范为例[J].现代情报,2023,43(2):9-19. 被引量：6
8张毅.灭火救援专业知识智能匹配算法[J].消防科学与技术,2022,41(10):1472-1476.
9刘国栋,秦胜伍,孟凡奇,高峰,熊良文,潘宏宇,姚靖宇,乔双双.基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用[J].工程地质学报,2023,31(2):526-537. 被引量：1
10董张玉,张晋,彭鹏,王燕,杨智,安森.基于GBDT-LR和信息量模型耦合的滑坡易发性评价[J].水土保持通报,2023,43(1):149-157. 被引量：4

1刘亮,何庆.一种求解函数优化问题的改进鲸鱼优化算法[J].计算机应用研究,2020,37(4):1004-1009. 被引量：18
2李育强,洪智勇,陈靖辉.基于混合信息增益算法的文本情感分析[J].计算机科学与应用,2019,9(12):2314-2322. 被引量：1
3余本功,张培行.基于双通道特征融合的WPOS-GRU专利分类方法[J].计算机应用研究,2020,37(3):655-658. 被引量：10
4赖朝安,侯延行,文雄辉.基于专利SAO链的技术预见方法研究--以工业机器人领域为例[J].科技管理研究,2020,40(7):171-179. 被引量：9
5成思源,陈晓菁,杨雪荣,赵荣丽,唐文艳.基于专利分析的创新设计实践教学[J].实验室研究与探索,2020,39(2):182-185. 被引量：6
6本刊编辑部.走进“绿色宝库”[J].走向世界,2020,0(19):6-7.
7许晨曦,金宇超,杜珂.国有企业混合所有制改革提高了企业投资效率吗?[J].北京师范大学学报（社会科学版）,2020(3):148-160. 被引量：37
8顾雪娟,何春红,黄熙,常永旺.一种18-630型筐篮式合绳机的结构设计理论分析[J].中国金属通报,2020(4):185-185.
9卢建华.十八大以来福建省人文社科研究竞争力分析——基于国家社科基金项目(2013-2018年)的实证研究[J].教育评论,2020,0(5):79-84. 被引量：2
10龚旭,吕佳,皮家甜.结合信息增益率和K-means聚类的协同训练算法[J].重庆师范大学学报（自然科学版）,2020,37(2):112-119. 被引量：4

浙江大学学报（工学版）

2020年第2期

浏览历史

内容加载中请稍等...

基于改进三体训练法的半监督专利文本分类方法被引量：10

参考文献3

二级参考文献93

共引文献106

同被引文献101

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于改进三体训练法的半监督专利文本分类方法 被引量：10

参考文献3

二级参考文献93

共引文献106

同被引文献101

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于改进三体训练法的半监督专利文本分类方法被引量：10