基于MapReduce的并行Agnes算法

Parallel Agnes Algorithm based on MapReduce

下载PDF

导出

摘要针对传统的Agnes算法在处理大批量数据时出现的内存和CPU处理速度问题,提出基于Map Reduce框架的并行Agnes算法,给出了算法的主要设计方案。Map阶段主要进行簇的初始化步骤,Reduce阶段则计算簇间距离,合并距离最近的簇。为了考虑属性间的联系,在计算簇间距离时,使用马氏距离替代欧氏距离。最后使用大小不同的数据集验证改进算法的加速比和可伸缩性。实验结果表明基于Map Reduce框架的并行Agnes算法适合于大批量数据的分析和挖掘。 In order to solve the problem of memory capacity and CPU processing speed when the traditional Agnes algorithm is used to deal with massive data. A parallel Agnes algorithm based on mapreduee was proposed. And concrete method was also described. The process of the Map＇s aim is to get initialized clusters. The process of the Reduce is to calculate distance between clusters,merge the most closed clusters. And concerning the connection of Attributes,the thesis replaced Euclidean Distance with Mahalanobis Distance. At last, using different size of dataset to test speedup ratio and sealabilily of improved algorithm .The experimental result show that improved algorithm is suitable for massive data analysis and data mining.

作者张国光巩秀钢于旭东冯韶文 ZHANG Guo- guang;GONG Xiu- gang;YU Xu- along;FENG Shao- wen(School of Computer Science and Technology,Shandong University of Technology, Zibo Shandong 255049,Chin)

机构地区山东理工大学计算机科学与技术学院

出处《科技视界》 2018年第10期113-115,共3页 Science & Technology Vision

关键词 MaprReduce 并行Agnes 大批量数据马氏距离 MapReduce Parallel Agnes Massive data Mahalanobis Distance

分类号 TP277 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：66
2曾佳军.改进的AGNES算法在羽毛球技战术分析中的应用[J].电脑知识与技术,2009,5(11X):9343-9345. 被引量：5
3易倩,滕少华,张巍.基于马氏距离的K均值聚类算法的入侵检测[J].江西师范大学学报（自然科学版）,2012,36(3):284-287. 被引量：8

二级参考文献24

1朱惠倩.聚类分析的一种改进方法[J].湖南文理学院学报（自然科学版）,2005,17(3):7-9. 被引量：15
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3田彦山.基于山峰聚类的聚类上限确定方法[J].江西师范大学学报（自然科学版）,2007,31(2):134-137. 被引量：2
4HanJiawei,KamberM.数据挖掘概念与技术[M].范明,盂晓峰,译.2版.北京:机械工业出版社,2006.
5Xiang Shiming, Nie Feiping, Zhang Changshui. Leafing a maha- lanobis distance metric for data clustering and classification [J]. Pattern Recognition, 2008, 42(12): 3600-3612.
6KDD99 Cup Dataset [EB/OL]. [2011-12-11]. http://kdd, ics. uci. edu/databases/kddcup99/kddcup99.html.
7Mukkamala S, Janoski G, Sung A H. Intrusion detection using suppoa vector machines and neural networks [EB/OL]. [2011-12- 20]. http://www, cs. uiuc. edu/class/fa05/cs591han/papers/mukk CNN02.pdf.
8Han Jiawei,Kamber M.Data mining:concepts and tech- niques[M].San Francisco:Morgan Kaufmann Publishers, 2000.
9Januzaj E, Kriegel H P, Pfeifle M.DBDC : Density-Based Distributed Clustering[C]//Proceedings of 9th International Conference on Extending Database Technology(EDBT). Oakland: IEEE Computer Press, 2004 : 88-105.
10Samatova N F, Ostrouchov G.RACHET : an efficient cov- er-based merging of clustering hierarchies from distribut- ed datasets[J].Distributed and Parallel Databases,2002, 11 (2) : 157-180.

共引文献76

1徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
2海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
3杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4
4戴涛,杨洲,方勇,景旭.基于CUDA的k-means文档聚类算法并行优化[J].计算机工程与设计,2013,34(11):4032-4036. 被引量：2
5余晓山,吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用,2014,34(6):1595-1599. 被引量：5
6黄蔚,李戴维.基于MapReduce的网络舆情分析系统的设计与实现[J].信息技术,2014,38(7):149-153. 被引量：2
7滕少华,吴昊,李日贵,张巍,刘冬宁,梁路.可调多趟聚类挖掘在电信数据分析中的应用[J].广东工业大学学报,2014,31(3):1-7. 被引量：5
8郎福通,王鹏.基于MapReduce的网格化优化CURE算法的实现[J].成都信息工程学院学报,2014,29(6):603-608.
9刘颖华,张辉.乒乓球比赛数据的知识表示与知识获取模型构建[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(1):136-140.
10刘颖华.羽毛球数据采集与决策分析系统设计[J].微型电脑应用,2015,31(4):23-26.

1王建文.SAP系统环境下通过软件优化方式高速处理大批量数据的方法[J].电子技术与软件工程,2018(9):174-177.
2岳想想,李绍稳.基于PCA-IAGNES的竹材分类模型研究[J].洛阳理工学院学报（自然科学版）,2018,28(2):67-70. 被引量：1
3郁磊.一种基于改进AGNES算法的POS机位置自学习方法[J].移动通信,2017,41(19):50-54.
4郭飞跃.PC的未来之路[J].现代电子技术,1999,22(6):34-35.
5谢翠芬.初探基于云计算的OpenStack开源技术[J].办公自动化,2018,23(10):30-32.
6史赛赛,黄强.基于Surfer的平原区域GPS高程拟合应用研究[J].神华科技,2018,16(5):44-46.
7郑汉,张星臣,王志美.混合车型需求响应公交服务定制问题研究[J].交通运输系统工程与信息,2018,18(2):157-163. 被引量：19
8曹家庆,吴观茂.基于MapReduce的分布式贪心EM算法[J].信息技术与网络安全,2018,37(5):84-87. 被引量：1
9刘炳含,付忠广,王永智,王鹏凯,高学伟.基于并行计算的大数据挖掘技术及其在电站锅炉性能优化中的应用[J].动力工程学报,2018,38(6):431-439. 被引量：28
10卢涵宇,陈军,卢天健,陈秀万,纪翔.基于GPU栅格计算关键技术研究及实现[J].广西大学学报（自然科学版）,2017,42(6):2147-2153.

科技视界

2018年第10期

浏览历史

内容加载中请稍等...

基于MapReduce的并行Agnes算法

参考文献3

二级参考文献24

共引文献76

相关作者

相关机构

相关主题

浏览历史