基于模糊相似度的科技文献软聚类算法被引量：9

Fuzzy similarity based document clustering algorithm

下载PDF

导出

摘要本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。 Author presents a new algorithm for Document soft Clustering. Extract keywords from the title and abstract and construct a weighted document vector space according to the position of the keywords. Automatically determine the optimal classification number K and hard cluster by applying the law of simi- larity-change inside and between classes in the process of maximum spanning tree clustering. Centering on hard cluster, decrease the cluster similarity to the minimum to form the soft clustering. Experimental result indicates a great drop in feature dimension and an increase in speed and accuracy.

作者孟海涛陈笑蓉

机构地区贵州大学计算机系

出处《贵州大学学报（自然科学版）》 2007年第2期175-178,共4页 Journal of Guizhou University:Natural Sciences

关键词科技文献特征提取相似度软聚类 Science Documents feature extraction similarity measures soft clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1夏咏梅.基于文本挖掘的分类与聚类技术[J].情报探索,2005(3):65-67. 被引量：9
2姜宁,宫秀军,史忠植.高维特征空间中文本聚类研究[J].计算机工程与应用,2002,38(10):63-67. 被引量：17
3林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
4范明,孟小峰.数据挖掘:概念与技术[M].北京:机械工业出版社,2003.
5潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
6TURELIU,et al.OFDMBlindCarrierOffset Estimation[ J ].ESPRITIEEETrans.onCommunication,2000,48 (9):145921461.
7LIANG jIYE,XU ZONGBEN.The algorithm on knowledge reduction in incomplete information systems[ J ].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002; 10(1):95-103.
8胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
9裴继红,范九伦,谢维信.一种新的高效软聚类方法:[J].电子学报,1998,26(2):83-86. 被引量：33
10刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23

二级参考文献56

1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
2曾玉.信息检索的模糊聚类分析模型[J].情报学报,2004,23(4):433-436. 被引量：15
3柴省三.内容词-共引聚类分析及其在科学结构研究中的应用[J].情报学报,1997,16(1):69-74. 被引量：24
4Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 .
5Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988.
6Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973.
7King B. Step-wise clustering procedures. Journal of the Amercian Statistical Association , 1967, 69(8) :86-101.
8Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases. Information Systems, 2001, 26( 1 ) : 35-58.
9Guha S, Rastogi R, Shim K. ROCK: a robust clustering algorithm for categorical attributes. In : Proceedings of the 15th International Cotfference on Data Engineering. Sydney: IEEE Computer Society Press, 1999. 512-521.
10Karypis G, Han E H, Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8) :68-75.

共引文献181

1潘有能,丁楠.图书馆学学科知识地图的构建[J].大学图书馆学报,2007,25(4):10-13. 被引量：21
2邬啸,魏延,吴瑕.改进的双隶属度模糊支持向量机[J].重庆师范大学学报（自然科学版）,2011,28(5):49-52. 被引量：5
3徐向华,朱杰,郭强.Fuzzy C-Means Clustering Based Phonetic Tied-Mixture HMM in Speech Recognition[J].Journal of Shanghai Jiaotong university(Science),2005,10(1):16-20. 被引量：1
4王晓东,王维兰.基于特定理论工具的彩色图像分割技术[J].宜春学院学报,2005,27(2):12-14.
5宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
6李文炬.文本挖掘技术在农业科技基础数据库中应用的探讨[J].农业网络信息,2005(11):86-87.
7李波,覃征,石美红.利用小波变换和FCM算法进行多特征纹理分割[J].计算机工程,2005,31(24):148-150. 被引量：6
8李明浩.电力日负荷数据特征模式智能提取方法[J].重庆大学学报（自然科学版）,2006,29(2):50-53. 被引量：2
9李春华,杨戍,刘少亭.基于遗传算法的截集FCM灰度图像分割方法研究[J].西安科技大学学报,2006,26(1):85-88. 被引量：3
10赵晖,荣莉莉.基于模糊核聚类的SVM多类分类方法[J].系统工程与电子技术,2006,28(5):770-774. 被引量：6

同被引文献80

1林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
2秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
3路甬祥.学科交叉与交叉科学的意义[J].中国科学院院刊,2005,20(1):58-60. 被引量：346
4刘群,张浩,白硕.自然语言处理开放资源平台[J].语言文字应用,2002(4):50-56. 被引量：9
5赵悦阳 ,崔雷 .专题文献的同被引聚类分析在表现学科专业发展历史的可靠性评价[J].情报学报,2005,24(4):414-421. 被引量：15
6吴景岚,朱文兴.基于K中心点的文档聚类算法[J].兰州大学学报（自然科学版）,2005,41(5):88-91. 被引量：4
7秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
8姚力群,陶卿.局部线性与One-Class结合的科技文本分类方法[J].计算机研究与发展,2005,42(11):1862-1869. 被引量：4
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10陈晓云,陈袆,王雷,李荣陆,胡运发.基于分类规则树的频繁模式文本分类[J].软件学报,2006,17(5):1017-1025. 被引量：19

引证文献9

1魏建香,苏新宁.基于关键词和摘要相关度的文献聚类研究[J].情报学报,2009,28(2):220-224. 被引量：4
2俞辉.基于LSA和pLSA的多文档自动文摘[J].计算机工程与科学,2009,31(9):108-111. 被引量：6
3唐俊.SSC软聚类算法在面向查询的多文档文摘中的应用[J].计算机工程与科学,2010,32(6):112-114.
4魏建香,孙越泓,苏新宁.基于聚类分析的学科交叉研究[J].情报学报,2010,29(6):1066-1073. 被引量：25
5史玉珍,彭智勇.基于修正h指数的学科领域专家发现的研究[J].计算机工程与应用,2011,47(29):1-3. 被引量：4
6吴夙慧,成颖,郑彦宁,潘云涛.基于学术文献同被引分析的K-means算法改进研究[J].情报学报,2012,31(1):82-94. 被引量：4
7周丽红,刘勘.基于关联规则的科技文献分类研究[J].图书情报工作,2012,56(4):12-16. 被引量：9
8马瑞新,邓贵仕,孟繁成.基于角色划分的文献软聚类算法[J].计算机应用研究,2012,29(3):856-858.
9王娟,范少萍,郑春厚.基于惩罚性矩阵分解的文本聚类分析[J].情报学报,2012,31(9):998-1008. 被引量：5

二级引证文献55

1吴启明.基于潜在语义的双视图Web社区集成算法[J].计算机工程,2010,36(13):84-86.
2张玉峰,何超.基于潜在语义分析和HS-SVM的文本分类模型研究[J].情报理论与实践,2010,33(7):104-107. 被引量：9
3崔凯,周斌,贾焰,梁政.一种基于LDA的在线主题演化挖掘模型[J].计算机科学,2010,37(11):156-159. 被引量：35
4魏建香,孙越泓,苏新宁.基于聚类分析的学科交叉研究[J].情报学报,2010,29(6):1066-1073. 被引量：25
5张洪磊,魏建香,杜振东,刘向,严顺,冯泽,李晓迪,冯学风.基于社会复杂网络的学科交叉研究[J].情报杂志,2011,30(10):25-29. 被引量：30
6沈艳红.情报学科知识流出问题研究[J].情报理论与实践,2012,35(2):15-18. 被引量：5
7刘勘,周丽红,陈譞.基于关键词的科技文献聚类研究[J].图书情报工作,2012,56(4):6-11. 被引量：18
8徐享王.图书馆服务知识读者化的研究[J].农业图书情报学刊,2012,24(9):17-20.
9吴夙慧,成颖,郑彦宁,潘云涛.一种基于引用上下文和引文网络的相关反馈算法[J].情报学报,2012,31(10):1052-1061. 被引量：3
10赵丙军,司虎克.基于知识流动的体育亲缘学科定量识别探索[J].图书情报工作,2013,57(1):122-129. 被引量：12

1姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
2张静静,杨燕,王红军,韩晓涛,邓强.一种新的软聚类投票法及其并行化实现[J].中国科学技术大学学报,2016,46(3):173-179. 被引量：2
3冯中慧,鲍军鹏,沈钧毅.一种增量式文本软聚类算法[J].西安交通大学学报,2007,41(4):398-401. 被引量：3
4余元辉,邓莹.能量矩与颜色聚类相结合的图像检索方法[J].河南大学学报（自然科学版）,2012,42(1):96-100. 被引量：1
5冯中慧,鲍军鹏,沈钧毅.基于EM算法的文本聚类优化研究[J].信息与控制,2006,35(5):657-661. 被引量：2
6于洪.三支聚类分析[J].数码设计,2016,5(1):31-35. 被引量：12
7徐浙君.一种基于采样遗传的文本软聚类方法[J].计算机光盘软件与应用,2014,17(14):128-129.
8卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量：2
9王红,王希诚.随机走步软聚类识别蛋白质网交叠功能模块[J].计算机工程与应用,2011,47(9):4-7.
10虞倩倩,戴月明.基于MapReduce的并行模糊C均值算法[J].计算机工程与应用,2013,49(14):133-137. 被引量：12

贵州大学学报（自然科学版）

2007年第2期

浏览历史

内容加载中请稍等...

基于模糊相似度的科技文献软聚类算法被引量：9

参考文献12

二级参考文献56

共引文献181

同被引文献80

引证文献9

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于模糊相似度的科技文献软聚类算法 被引量：9

参考文献12

二级参考文献56

共引文献181

同被引文献80

引证文献9

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于模糊相似度的科技文献软聚类算法被引量：9