一种基于Hadoop的并行关联规则算法被引量：13

A parallel algorithm for mining frequent item sets on Hadoop

下载PDF

导出

摘要在挖掘大型数据库的关联规则时,使用并行计算是必需的.针对传统的并行计算,存在不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop架构实现并行关联规则计算的设计.理论和实验证明,基于Hadoop的并行关联规则计算,能处理节点失效,并且能做到节点负载均衡. Parallel compute is required in mining frequent item sets on large databases.MPI can＇t handle node failure,and it＇s difficult to solve load balance.So we propose parallel mining frequent item sets on Hadoop.Theoretical and experimental results show parallel mining frequent item sets on Hadoop can handle node failure and can solve load balance.

作者余楚礼肖迎元尹波

机构地区天津理工大学计算机与通信工程学院世纪恒丰环保节能工程有限公司

出处《天津理工大学学报》 2011年第1期25-28,32,共5页 Journal of Tianjin University of Technology

基金国家863基金(2009AA01Z152) 天津市自然科学基金(08JCYBJC12400) 中小企业创新基金(08ZXCXGX15000)

关键词关联规则 HADOOP 云计算数据挖掘 association rules Hadoop cloud compute data mining

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Agrawal R,tmielinski T,Swami A.Mining association rules between sets of Items in large database[C] //Pros of ACM SIGMOD International Conference on Management of Data.Washington DC:ACM Press,1993:207-216.
2Savasere A,Om ieci nski E,Nacathe S.An efficient algorithm for mining association rules in large database[C].//Pros of the 21st International Conference on Very LargeDatabases.San Francisco:Morgan Kaufmann Publishers,1995:4322444.
3Han Jia-wei,Pei Jian,Yin Yi-wen.Mining frequent patterns without candidate generation[C] //Pros of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2000:1-12.
4Agrawal R,Sharfer J.Parallel mining of association rules[J].IEEE Trans on Knowledge and Data Engineering,1996,8(6);962-969.
5Cheung W L,Ncentn V I,FU W C,et al.Efficient mining of association rules in distributed database[J].IEEETrans on Knowledge and Data Engineering,1996,8(1):911-922.
6杨明,孙志挥,吉根林.快速挖掘全局频繁项目集[J].计算机研究与发展,2003,40(4):620-626. 被引量：35
7Apache.Welcome to apache hadoop[EB/OL].(201010-15)[2010-11-02] http://hadoop.apache.org/.
8Dean J,Chemawat S.MapReduce:simplified data processing on large clusters[C] //Pros of the 6th Symposium on Operating System Design and Implemention.San Francisco:CA,2004.

二级参考文献2

1RAgrawa1 TImie1inSki Aswami.Mining association ru1es between sets of items in 1arge database[J].The ACM SIGMOD Intemationa1 Conf on Management of Data, Washington, DC,1993,.
2路松峰,卢正鼎.快速开采最大频繁项目集[J].软件学报,2001,12(2):293-297. 被引量：113

共引文献34

1杨明,孙志挥,宋余庆.快速更新全局频繁项目集[J].软件学报,2004,15(8):1189-1197. 被引量：18
2冀振明,陶世群.基于电信运营中大客户流失的数据挖掘模型[J].计算机工程与应用,2004,40(23):169-171. 被引量：5
3杨明,孙志挥.一种基于最大加权频繁项目集的数据库相似性判别算法[J].计算机研究与发展,2004,41(10):1774-1779. 被引量：1
4李宏,杜剑峰,陈松乔.分布式数据库约束性关联规则挖掘[J].中南大学学报（自然科学版）,2004,35(6):998-1003. 被引量：1
5杨明,杨萍.一种基于前缀广义表的快速间接关联挖掘算法[J].安徽工程科技学院学报（自然科学版）,2004,19(4):40-45.
6杜威,邹先霞.基于PC-树的关联规则挖掘方法[J].计算机工程与设计,2005,26(2):445-447. 被引量：3
7陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
8阮幼林,李庆华,刘干.分布环境中的并行频繁模式挖掘算法[J].计算机工程与应用,2005,41(25):1-3. 被引量：3
9曹洪其,姜志峰,孙志挥.分布式数据库多层关联规则挖掘算法研究[J].计算机应用,2005,25(12):2858-2861. 被引量：1
10何波,王华秋,刘贞,王越.快速挖掘频繁项集的并行算法[J].计算机应用,2006,26(2):391-392. 被引量：5

同被引文献120

1刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
2ZHEN Bin WU Xihong LIU Zhimin CHI Huisheng (Center for Information Science, Peking University Beijing 100871).An enhanced relative spectral processing of speech[J].Chinese Journal of Acoustics,2002,21(1):86-96. 被引量：2
3王萍,刘颖,王汉芝,刘环珠.基于格点场数据的沙尘暴双预报模型[J].天津大学学报,2006,39(3):329-333. 被引量：4
4赵艳霞,梁昌勇.基于关联规则的推荐系统在电子商务中的应用[J].价值工程,2006,25(5):82-85. 被引量：15
5谈克林,孙志挥.一种FP树的并行挖掘算法[J].计算机工程与应用,2006,42(13):155-157. 被引量：10
6韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2007:188-198.
7刘鹏,黄宜华,陈卫卫.实战Hadoop-开启通向云计算的捷径.北京:电子工业出版社,2011.
8TomWhite.Hadoop权威指南[M].周敏奇,王晓玲,译.北京:清华大学出版社,2011.
9ChuckLam.Hadoop实战[M].北京:人民邮电出版社,2011:17-50.
10Yang Xinyue, Liu Zhen, Fu Yan. MapReduce as a pro- gramming model for association rides algorithm on Hadoop [ C ~//the 3rd International Conference on Information Sci- ences and Interaction Sciences(ICIS). 2010:99-102.

引证文献13

1丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
2吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
3马洁.云计算环境下关联规则数据挖掘算法研究[J].重庆工商大学学报（自然科学版）,2012,29(11):36-39. 被引量：4
4幸莉仙,黄慧连.MapReduce框架下的朴素贝叶斯算法并行化研究[J].计算机系统应用,2013,22(2):108-111. 被引量：9
5王鑫,王喻红,于娇,葛冬梅.MapReduce框架下Aprioi算法的改进[J].黑龙江工程学院学报,2014,28(2):70-74. 被引量：1
6赵捷.大数据时代组织机构代码应用探究[J].测绘科学,2014,39(5):32-35. 被引量：3
7郑志娴.基于云计算的Apriori算法设计[J].莆田学院学报,2014,21(5):61-64. 被引量：2
8王智钢,李广水.基于云计算的并行关联规则挖掘[J].金陵科技学院学报,2015,31(3):12-15.
9李永生,曾沁,杨玉红,陈晋.基于大数据技术的气象算法并行化研究[J].计算机技术与发展,2016,26(9):47-49. 被引量：7
10常艳芬,王乐,王辉兵.不确定数据流中频繁模式的并行挖掘算法[J].计算机应用与软件,2016,33(9):20-23. 被引量：6

二级引证文献63

1薛冰,李京忠,肖骁,谢潇,庞敏,姜璐,逯承鹏,任婉侠.基于大数据的城市人地关系分析与应用计算平台——2018年中国地理学会地理大数据计算环境“优秀实用案例”[J].全球变化数据学报（中英文）,2018(3):290-294. 被引量：5
2施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
3应毅,刘亚军.MapReduce并行计算技术发展综述[J].计算机系统应用,2014,23(4):1-6. 被引量：18
4李志义,沈之锐,义梅练.贝叶斯分类算法在社交网站信息过滤中的应用分析[J].图书情报工作,2014,58(13):100-106. 被引量：5
5王彦明.近年来Hadoop国内研究进展[J].现代情报,2014,34(8):14-19. 被引量：2
6黄秋勇,唐爱龙.一种适用于云计算环境的关联规则算法[J].柳州师专学报,2014,29(4):141-143.
7郭伟光.我国B2C电子商务个性化商品推荐服务实证研究[J].价值工程,2014,33(30):25-27. 被引量：3
8郑志娴.基于云计算的Apriori算法设计[J].莆田学院学报,2014,21(5):61-64. 被引量：2
9卞琛,英昌甜,修位蓉.一种基于用户商业行为的数据采集分析方案[J].电脑编程技巧与维护,2015(7):57-60. 被引量：2
10张晨阳,马志强,刘利民,常骏,李永利.Hadoop下基于粗糙集与贝叶斯的气象数据挖掘研究[J].计算机应用与软件,2015,32(4):72-76. 被引量：6

1潘燕燕.一种新的基于MapReduce的并行关联规则算法[J].重庆科技学院学报（自然科学版）,2015,17(3):88-91. 被引量：1
2马洁.云计算环境下关联规则数据挖掘算法研究[J].重庆工商大学学报（自然科学版）,2012,29(11):36-39. 被引量：4
3邢殿勇,吴绍春,王炜.并行关联规则算法在地震相关性预报中的应用[J].计算机应用研究,2005,22(10):175-177. 被引量：2
4吴建章,韩立新,曾晓勤.一种基于多核微机的闭频繁项集挖掘算法[J].计算机应用与软件,2013,30(3):44-46. 被引量：2
5樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,42(5):831-834. 被引量：9
6何中胜.基于向量的并行关联规则挖掘算法[J].计算机系统应用,2009,18(3):42-45. 被引量：1
7郝晓飞,谭跃生,王静宇.Hadoop平台上Apriori算法并行化研究与实现[J].计算机与现代化,2013(3):1-4. 被引量：26
8冯楠,吴翔晖,彭燕,庄丽丽,王荣,李敏兰.一种高效并行关联规则挖掘算法在专利数据库的应用[J].数字技术与应用,2012,30(11):134-134.
9朱红霞,许凌云,李媛.并行关联规则挖掘算法比较研究[J].科技风,2015(8):5-5.
10何中胜,刘宗田.一种无候选集产生的并行关联规则挖掘算法[J].计算机工程与应用,2004,40(24):163-165. 被引量：2

天津理工大学学报

2011年第1期

浏览历史

内容加载中请稍等...

一种基于Hadoop的并行关联规则算法被引量：13

参考文献8

二级参考文献2

共引文献34

同被引文献120

引证文献13

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

一种基于Hadoop的并行关联规则算法 被引量：13

参考文献8

二级参考文献2

共引文献34

同被引文献120

引证文献13

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

一种基于Hadoop的并行关联规则算法被引量：13