文本分类中基于K-Sprinkling的特征提取方法被引量：2

Feature Extraction Method Based on K-Sprinkling in Text Classification

下载PDF

导出

摘要传统的特征提取方法大多注重类别对特征词的作用,不能很好地表达样本对类别的影响。为此,对样本的类别贡献问题进行研究。针对Sprinkling特征提取方法中未考虑样本对类别的贡献度问题,提出一种基于K-Sprinkling的特征提取方法。综合考虑样本紧密度和样本隶属度信息,利用Sprinkling方法的特点,将样本权值映射到语义空间中,实现对文本的分类。实验结果表明,K-Sprinkling方法比传统的Sprinkling方法在平衡样本分类上F1值提高了1.89%,在不平衡样本分类上F1值提高了3.30%,取得了较好的分类效果。 The traditional feature extraction methods are mainly focus to the role of the category on the characteristic word for text classification, which do not express the impact of the sample on the classification. In this paper, aiming at the problem that the contribution of the sample to the classis is not detected out from the Sprinkling, and the K-Sprinkling is proposed based on these detected sample tightness and sample membership. Then, by considering the Sprinkling advantages, the sample weights are mapped into the vector feature space to achieve the text classification through the potential semantic indexing method. The experimental results show that the K-Sprinkling method proposed in this paper can obtain better classification performance. It outperforms the traditional method by 1.89% on the balance sample, as well as 3.30% on the imbalance sample in terms of F1-score.

作者李惠富陆光景维鹏

机构地区东北林业大学信息与计算机工程学院

出处《计算机工程》 CAS CSCD 北大核心 2017年第12期141-146,共6页 Computer Engineering

基金黑龙江省自然科学基金(F201201) 林业公益性行业科研专项(201504307)

关键词特征提取样本隶属度样本紧密度潜在语义索引贡献度 feature extraction sample membership sample tightness Latent Semantic Indexing （ LSI ） contributiondegree

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1易树鸿,张为群.一种基于粗集的文本数据特征信息的挖掘方法[J].计算机科学,2002,29(8):91-92. 被引量：1
2熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
3罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77
4赵仲秋,季海峰,高隽,胡东辉,吴信东.基于稀疏编码多尺度空间潜在语义分析的图像分类[J].计算机学报,2014,37(6):1251-1260. 被引量：26
5卫威,王建民.一种大规模数据的快速潜在语义索引[J].计算机工程,2009,35(15):35-37. 被引量：10
6季铎,毕臣,蔡东风.基于类别信息优化的潜在语义分析分类技术[J].中国科学技术大学学报,2015,45(4):314-320. 被引量：5
7程玉胜,梁辉,王一宾,黎康.基于风险决策的文本语义分类算法[J].计算机应用,2016,36(11):2963-2968. 被引量：7
8陈珂,柯文德,刘美,张良均.一种基于多类别信息的局部潜在语义分析算法研究[J].南京邮电大学学报（自然科学版）,2016,36(1):119-124. 被引量：2
9刘开旻,吴小俊.一种基于新隶属度函数的模糊支持向量机[J].计算机工程,2016,42(4):155-159. 被引量：16
10鞠哲,曹隽喆,顾宏.用于不平衡数据分类的模糊支持向量机算法[J].大连理工大学学报,2016,56(5):525-531. 被引量：15

二级参考文献187

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
3彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
4何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
5于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：18
6陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
7徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
8车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：119
9冼广淋,骆雪超,肖宇峰.统计学习理论与支持向量机[J].中国科技信息,2005(12C):178-178. 被引量：9
10肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究[J].计算机应用,2006,26(5):1125-1126. 被引量：12

共引文献291

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：10
2李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：7
3骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
4刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
5葛艳,杜坤钰,杜军威,陈卓.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. 被引量：7
6刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：27
7巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
8胡雨晴,纪明宇,王晨龙.基于依存句法的句子相似度计算方法[J].智能计算机与应用,2020(4):113-118. 被引量：2
9黄永文,何中市,伍星.用户评论的分类获取[J].计算机应用,2009,29(3):846-848. 被引量：5
10杜一平,刘燕君.基于优势率的改进二元特征提取方法[J].计算机系统应用,2010,19(2):106-109. 被引量：1

同被引文献23

1袁芳,王瑞春,管明祥,万学元,何国荣,周艳红.基于文本挖掘与功能相似性的疾病基因预测[J].计算机工程,2011,37(4):27-28. 被引量：2
2李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：57
3吕靖,舒礼莲.基于AdaBoost的不完整数据的信息熵分类算法[J].计算机与现代化,2013(9):31-34. 被引量：3
4殷聪,张李义.基于TF-IDF的情境后过滤推荐算法研究——以餐饮业O2O为例[J].数据分析与知识发现,2018,2(11):28-36. 被引量：13
5夏志明,刘新.一种基于语义的中文文本相似度算法[J].计算机与现代化,2015(4):6-9. 被引量：7
6王景中,邱铜相.基于TF-IDF改进算法的聚焦主题网络爬虫[J].计算机应用,2015,35(10):2901-2904. 被引量：16
7谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：21
8郑诚,吴文岫,代宁.融合BTM主题特征的短文本分类方法[J].计算机工程与应用,2016,52(13):95-100. 被引量：11
9陈功,黄瑞章,钟文良.基于社交特征的多维度文本表示方法[J].计算机工程与科学,2016,38(11):2348-2355. 被引量：3
10党红恩.藏文字形轮廓特征优化识别提取仿真研究[J].计算机仿真,2016,33(11):341-344. 被引量：6

引证文献2

1杨肖楠,花季伟.互联网中非法文本特征自适应提取仿真研究[J].计算机仿真,2019,36(6):434-437. 被引量：1
2罗有志,陈征明,陈明,梅文涛.一种基于自适应关联熵的关键字提取算法[J].计算机与现代化,2020,0(4):67-71. 被引量：1

二级引证文献2

1赵海燕,刘琨,王廷梅,杜丽娟.网络文本蕴含关系识别的异常信息获取仿真[J].计算机仿真,2020,37(8):256-260. 被引量：3
2杨延娇,赵国涛,袁振强,韩家臣.融合语义特征的TextRank关键词抽取方法[J].计算机工程,2021,47(10):82-88. 被引量：13

1耿淼,须文波,秦向东.二进制引力搜索结合LSI的混合CBIR算法[J].湘潭大学自然科学学报,2017,39(3):85-88. 被引量：1
2赵小强,张露.一种改进的数据挖掘模糊支持向量机分类算法[J].兰州理工大学学报,2017,43(5):94-99. 被引量：3
3马丽君,龙云.基于社会网络分析法的中国省际入境旅游经济增长空间关联性[J].地理科学,2017,37(11):1705-1711. 被引量：57
4赵明珍,林鸿飞,徐博,郝辉辉.面向社交网络的潜在药物不良反应发现[J].中文信息学报,2017,31(5):194-202. 被引量：7
5戴璐珺.泰兴合力推动“防检结合”[J].中国畜牧业,2017,0(22):65-66.
6唐延欢,孟祥福,张霄雁,毕崇春,唐晓亮.融合地理-社会关系的空间聚类方法[J].小型微型计算机系统,2017,38(11):2523-2528. 被引量：4
7王岩韬,唐建勋,赵嶷飞.基于粗糙集和支持向量机的航班运行风险预测[J].中国安全科学学报,2017,27(9):158-163. 被引量：14
8俸世洲,周尚波.基于深度自编码网络的高校招生咨询算法[J].计算机应用,2017,37(11):3323-3329. 被引量：2
9吴成茂,上官若愚.嵌入隐马尔科夫随机场的中智模糊聚类算法[J].西安电子科技大学学报,2017,44(6):103-108. 被引量：8
10施志伟,高俊波,胡雯雯,刘志远.基于文本的抑郁情感倾向识别模型[J].计算机系统应用,2017,26(12):155-159. 被引量：4

计算机工程

2017年第12期

浏览历史

内容加载中请稍等...

文本分类中基于K-Sprinkling的特征提取方法被引量：2

参考文献14

二级参考文献187

共引文献291

同被引文献23

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

文本分类中基于K-Sprinkling的特征提取方法 被引量：2

参考文献14

二级参考文献187

共引文献291

同被引文献23

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

文本分类中基于K-Sprinkling的特征提取方法被引量：2