期刊文献+

基于模糊相似度的科技文献软聚类算法 被引量:9

Fuzzy similarity based document clustering algorithm
在线阅读 下载PDF
导出
摘要 本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。 Author presents a new algorithm for Document soft Clustering. Extract keywords from the title and abstract and construct a weighted document vector space according to the position of the keywords. Automatically determine the optimal classification number K and hard cluster by applying the law of simi- larity-change inside and between classes in the process of maximum spanning tree clustering. Centering on hard cluster, decrease the cluster similarity to the minimum to form the soft clustering. Experimental result indicates a great drop in feature dimension and an increase in speed and accuracy.
出处 《贵州大学学报(自然科学版)》 2007年第2期175-178,共4页 Journal of Guizhou University:Natural Sciences
关键词 科技文献 特征提取 相似度 软聚类 Science Documents feature extraction similarity measures soft clustering
  • 相关文献

参考文献12

二级参考文献56

  • 1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量:9
  • 2曾玉.信息检索的模糊聚类分析模型[J].情报学报,2004,23(4):433-436. 被引量:15
  • 3柴省三.内容词-共引聚类分析及其在科学结构研究中的应用[J].情报学报,1997,16(1):69-74. 被引量:24
  • 4Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 .
  • 5Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988.
  • 6Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973.
  • 7King B. Step-wise clustering procedures. Journal of the Amercian Statistical Association , 1967, 69(8) :86-101.
  • 8Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases. Information Systems, 2001, 26( 1 ) : 35-58.
  • 9Guha S, Rastogi R, Shim K. ROCK: a robust clustering algorithm for categorical attributes. In : Proceedings of the 15th International Cotfference on Data Engineering. Sydney: IEEE Computer Society Press, 1999. 512-521.
  • 10Karypis G, Han E H, Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8) :68-75.

共引文献181

同被引文献80

引证文献9

二级引证文献55

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部