基于Spark的并行ALS协同过滤算法研究被引量：2

Research on Parallel Als Algorithm Based on Spark

下载PDF

导出

摘要 ALS(最小二乘法)协同过滤推荐算法是通过矩阵分解进行推荐,它通过综合大量的用户评分数据进行计算,并存储计算过程中产生的大量特征矩阵。Hadoop的HA(高可用性)用来解决HDFS分布式文件系统的Name Node单点故障问题。Spark是一种基于内存的新型分布式大数据计算框架,具有优异的计算性能。文章基于QJM(Quorum Journal Manag-er)构建了HA下的Hadoop大数据平台,并在Spark计算框架基础上研究使用ALS协同过滤算法,实现基于ALS协同过滤算法在Spark上的并行化运行;通过和基于Hadoop的Map Reduce思想的ALS协同过滤算法在Netflix数据集上的比对实验表明,基于Spark平台的ALS协同过滤算法的并行化计算效率有明显提升,并且更适合处理海量数据。 ALS（least square）is a collaborative filtering recommendation algorithm recommended by matrix decomposition,itis calculated by a combination of a large number of user rating data,and stored the calculation process of a large number of charac.teristic matrix. Hadoop-HA（High Available）is used to solve the problem of the single point of failure of the NameNode. The Sparkis a computing framework based on new type of large data come up with distributed memory,at the same time it has excellent comput.ing performance. This study uses the QJM（Quorum Journal Manager）to construct the HA Hadoop big data platform. In this study,uses the ALS collaborative filtering algorithm with the spark coding Framework,at the same time,this study realizes the ALS collab.orative filtering algorithm based on the Spark of parallel operation. Through the comparation experiments（the ALS collaborative fil.tering algorithm based on Hadoop graphs thought and the Netflix data set）,the study based on Spark platform of parallel computationis more efficiency. It is more suitable for processing huge amounts of data.

作者侯敬儒吴晟李英娜

机构地区昆明理工大学信息工程与自动化学院

出处《计算机与数字工程》 2017年第11期2197-2201,共5页 Computer & Digital Engineering

基金国家自然科学基金项目(编号:51467007)资助

关键词 ALS 协同过滤矩阵分解 HighAvailable SPARK ALS,collaborative filtering,Matrix decomposition,High Available,Spark

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1郑凤飞,黄文培,贾明正.基于Spark的矩阵分解推荐算法[J].计算机应用,2015,35(10):2781-2783. 被引量：13
2黄强,沈奇威,李炜.Hadoop高可用解决方案研究[J].电信技术,2015(11):16-19. 被引量：1
3陈梦杰,陈勇旭,贾益斌,张一川,宋杰.基于Hadoop的大数据查询系统简述[J].计算机与数字工程,2013,41(12):1939-1942. 被引量：5
4张宇,程久军.基于MapReduce的矩阵分解推荐算法研究[J].计算机科学,2013,40(1):19-21. 被引量：8
5邓鹏,李枚毅,何诚.Namenode单点故障解决方案研究[J].计算机工程,2012,38(21):40-44. 被引量：27
6原默晗,唐晋韬,王挺.一种高效的分布式相似短文本聚类算法[J].计算机与数字工程,2016,44(5):895-900. 被引量：4

二级参考文献55

1王海波.云计算中数据库的关键问题研究与实现[D].吉林大学,2011.
2Koren Y, Bell R, Volinsky C. Matrix Factorization Techniques for Recommender Systems[J]. Computer, 2009,42 (8) : 30-37.
3Bell R M,Koren Y. Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights[C]//Proc of the 7th IEEE International Conference on Data Mining. Omaha NE, USA: IEEE, 2007: 43-52.
4Takacs G, Pilaszy I, Nemeth B, et al. Matrix Factorization and Neighbor Based Algorithms the Netflix Prize Problem [C]// Proceedings of the 2008 ACM conference on Recommender sys- tems. Lausanne, Switzerland: ACM, 2008 : 267 274.
5Zhou Y, Wilkinson D, Schreiber R, et al. Large-Scale ParallelCollaborative Filtering for the Netflix Prize[C]//Proc of the 4th international conference on Algorithmic Aspects in Information and Management. 2008.
6Dean J,Ghemawat S. MapReduee: Simplified Data Processing on Large Clusters[J]. Communication of the ACM 50: anniversary issue, 2008,51 (1) : 107d 13.
7Hadoop. Open-source software for reliable, scalable, distributed computing[-EB/OL], http://hadoop, apache, org/, 2011.
8Mahout. Scalable machine learning and data mining[EB/OL]. http://mahout, apache, org, 2011.
9Takacs G, Pliaszy I, Nemeth B, et al. Investigation of Various Matrix Factorization Methods for Large Recommender Systems [C]// Proc of the IEEE International Conference on Data Mi- ning Workshops. IEEE, 2008: 553-562.
10Pilaszy I, Zibriczky D, Tikk D. Fast AL:based Matrix Factori- zation for Explicit and Implicit Feedback Datasets[C]//'Procee: dings of the fourth ACM conference on Recommender systems. New York: ACM, 2010 : 71-78.

共引文献52

1朱义奎,黄佳豪,蔡亮.基于Spark机器学习的电商推荐系统的设计与实现[J].现代商贸工业,2021,42(S01):52-54. 被引量：2
2鲁阳,郑岩.利用Zookeeper对HDFS中Namenode单点失败的改进方法[J].软件,2012,33(12):192-196. 被引量：5
3戚丽丽,孙静宇,陈俊杰.基于均模型的IBCF算法研究[J].山东大学学报（理学版）,2013,48(11):105-110. 被引量：2
4罗学礼,徐树振,王森,杨莉.企业非结构化数据管理平台研究[J].云南电力技术,2013,41(5):34-37. 被引量：4
5顾瑞春,王静宇.一种基于MapReduce的并行聚类模型[J].计算机与现代化,2014(1):90-92. 被引量：1
6夏敏纳,龚德良,肖娟.一种面向可靠云计算的自适应故障检测方法[J].计算机应用研究,2014,31(2):426-430. 被引量：7
7唐海东,武延军.分布式同步系统Zookeeper的优化[J].计算机工程,2014,40(4):53-56. 被引量：15
8徐树振,罗学礼,王森,杨莉,段嘉杰,张德刚.企业非结构化数据检索研究[J].信息技术,2014,38(4):196-200. 被引量：6
9辛晃,易兴辉,陈震宇.基于Hadoop+MPP架构的电信运营商网络数据共享平台研究[J].电信科学,2014,30(4):135-145. 被引量：19
10罗学礼,徐树振,王森,杨莉,段嘉杰.电力企业的非结构化数据检索研究[J].计算机与数字工程,2014,42(4):729-733. 被引量：8

同被引文献9

1陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报,2013,36(2):349-359. 被引量：125
2卫泽,周登文.基于用户的优化协同过滤推荐算法[J].计算机与数字工程,2017,45(4):613-615. 被引量：5
3兰艳,曹芳芳.面向电影推荐的时间加权协同过滤算法的研究[J].计算机科学,2017,44(4):295-301. 被引量：24
4张朝恒,何小卫,陈勇兵.基于社交网络信息的协同过滤推荐算法[J].计算机技术与发展,2017,27(12):28-34. 被引量：11
5彭康华,黄裕锋,姚江梅.多种人工智能算法的数据库技术课程自动组卷比较[J].计算机系统应用,2018,27(3):210-216. 被引量：16
6钱刃,吴云,孔广黔.融合稀疏度加权的协同过滤算法研究[J].计算机技术与发展,2018,28(7):21-24. 被引量：2
7郭晓慧.基于改进协同过滤的图书推荐算法研究[J].情报探索,2018(1):34-36. 被引量：7
8张志威.个性化推荐算法研究综述[J].信息与电脑,2018,30(17):27-29. 被引量：19
9冯志勇,徐砚伟,薛霄,陈世展.微服务技术发展的现状与展望[J].计算机研究与发展,2020,57(5):1103-1122. 被引量：128

引证文献2

1彭康华,姚江梅,黄裕锋.一种新型有向加权协同过滤算法的推荐技术研究[J].计算机与数字工程,2019,47(1):115-121. 被引量：2
2史爱武,李险贵.基于Spark和微服务架构的电影推荐系统设计与实现[J].电脑知识与技术,2021,17(5):78-80. 被引量：3

二级引证文献5

1彭康华.基于云技术的经济联社股权信息系统开发研究与应用[J].信息系统工程,2020,33(9):101-102.
2姜山,孙斐斐,付振鹏,张国印,匡斌,张远来.基于微服务架构的网源协调移动端系统设计[J].电力设备管理,2022(2):289-291.
3刘品洁.语言识别下的数据库信息个性化推荐算法[J].信息技术,2022,46(8):191-196. 被引量：5
4杨建,刘磊,康欣欣.基于用户行为和音频特征的音乐推荐系统设计与实现[J].无线互联科技,2023,20(9):55-57. 被引量：2
5孟瑞军.基于Spark的实时广告推荐系统研究[J].信息与电脑,2023,35(9):60-62.

1陈万志,张爽,王德建,王星.基于近邻模型与概率矩阵分解的高校选课推荐算法[J].辽宁工程技术大学学报（自然科学版）,2017,36(9):976-982. 被引量：5
2刘克礼,王荣华.基于协同过滤的学习资源个性化推荐应用[J].安徽广播电视大学学报,2017(4):125-128. 被引量：3
3白多.浅析新纪录电影《童心无归处》的美学特质[J].新闻研究导刊,2017,8(20):43-43.
4刘天宇,陈登凯,李雪瑞.基于用户点赞行为的推荐算法研究[J].计算机工程与应用,2017,53(24):75-79. 被引量：1
5Netflix计划在亚洲与有线电视提供商进行合作[J].中国有线电视,2017(11):1309-1309.
6钟足峰,段尧清,杨曼.可提高多样性的基于重排序图书推荐算法研究[J].现代情报,2017,37(12):59-63. 被引量：5
7郭雷,张琨,陈洪雁,严霞.基于相似度质量的混合协同过滤算法[J].计算机与数字工程,2017,45(11):2099-2104. 被引量：2
8李红蕾.面向移动客户端的数据服务推荐策略[J].电子技术与软件工程,2017(23):148-148.
9何苗,王保云,盛伟,杨昆,洪亮.彩色遥感图像薄云去除方法[J].光学技术,2017,43(6):503-508. 被引量：2
10郭凯,彭克银,雷蕾.测震波形数据存储和管理系统设计与实现[J].中国科技资源导刊,2017,49(6):76-80. 被引量：1

计算机与数字工程

2017年第11期

浏览历史

内容加载中请稍等...

基于Spark的并行ALS协同过滤算法研究被引量：2

参考文献6

二级参考文献55

共引文献52

同被引文献9

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行ALS协同过滤算法研究 被引量：2

参考文献6

二级参考文献55

共引文献52

同被引文献9

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行ALS协同过滤算法研究被引量：2