期刊文献+

海量中文短信文本最佳聚类数研究 被引量:1

Study on Optimal Clustering Number in Mass Chinese Short Message Text
在线阅读 下载PDF
导出
摘要 针对海量中文短信文本的聚类簇数的确定问题,提出一种基于聚类过程的短信文本最佳聚类数确定方法。通过扫描一遍数据即可获得多个统计信息,利用增量逐层划分得到最优划分所对应的簇类数,求出最优解。实验结果表明,与其他方法相比,该方法的分类效率较高。 According to the characteristics of Chinese short message text,this paper presents a clustering process based on algorithms of the optimal number,which can be obtained multiple statistical information by scaning the data only once,and using increment in-depth profile analysis so as to obtain corresponding total number of class cluster,obtained optimal solution.Experimental result shows that the method has advantage with highly-quality than other methods.
作者 刘金岭
出处 《计算机工程》 CAS CSCD 北大核心 2010年第8期66-68,共3页 Computer Engineering
基金 国家自然科学基金资助项目(60632050) 江苏省高校自然科学基金资助项目(06KJD520024)
关键词 聚类 簇数 增量 划分 clustering cluster number increment division
  • 相关文献

参考文献6

  • 1Xie X,Beni G.A Validity Measure for Fuzzy Clustering[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,1991,13(8):841-847.
  • 2Sun Haojun,Wang Shenrui,Jiang Qingshan.FCM-based Model Selection Algorithms for Determining the Number of Cluster[J].Pattern Recognition,2004,37(10):2027-2037.
  • 3Tibshirani R,Walther G,Hastie T.Estimating the Number of Clusters in a Dataset via the Gap Statistic[R].Stanford,CA,USA:Stanford University,Tech.Rep.:208,2000.
  • 4Kapp A V,Tibshirani R.Are Clusters Found in One Dataset Present in Another Dataset?[J].Biostatistics,2007,8(1):9-31.
  • 5刘金岭.基于语义的高质量中文短信文本聚类算法[J].计算机工程,2009,35(10):201-202. 被引量:30
  • 6Foss A,Zaiane O R.A Parameterless Method for Efficiently Discovering Clusters of Arbitrary Shape in Large Datasets[C]//Proc.of ICDM'02.Los Alamitos,USA:IEEE Computer Society,2002:179-186.

二级参考文献5

共引文献29

同被引文献9

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部