摘要
针对海量中文短信文本的聚类簇数的确定问题,提出一种基于聚类过程的短信文本最佳聚类数确定方法。通过扫描一遍数据即可获得多个统计信息,利用增量逐层划分得到最优划分所对应的簇类数,求出最优解。实验结果表明,与其他方法相比,该方法的分类效率较高。
According to the characteristics of Chinese short message text,this paper presents a clustering process based on algorithms of the optimal number,which can be obtained multiple statistical information by scaning the data only once,and using increment in-depth profile analysis so as to obtain corresponding total number of class cluster,obtained optimal solution.Experimental result shows that the method has advantage with highly-quality than other methods.
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第8期66-68,共3页
Computer Engineering
基金
国家自然科学基金资助项目(60632050)
江苏省高校自然科学基金资助项目(06KJD520024)
关键词
聚类
簇数
增量
划分
clustering
cluster number
increment
division