-
题名基于全路径相似度的大规模层次分类算法
- 1
-
-
作者
朱建林
陈忠阳
张永俊
孙存一
-
机构
中国人民大学财政金融学院
中国人民大学信息学院
北京大学光华管理学院
-
出处
《计算机工程与设计》
北大核心
2019年第5期1300-1304,1333,共6页
-
基金
国家自然科学基金项目(71271209)
北京市自然科学基金项目(4132067)
-
文摘
为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础。基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个目标类别的全路径相似度,确定分类类别。实验结果表明,该方法分类效果优于传统算法,其基于文本类全路径相似度的策略明显改善了单纯基于词类区分度的分类算法。
-
关键词
词类区分度
全路径相似度
大规模层次分类
文本分类
化繁为简策略
-
Keywords
word-class discrimination
full-path similarity
large-scale hierarchical classification
text classification
simplify strategy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-