Spark框架下均值漂移算法对舆情聚类的分析被引量：1

Analysis of Mean Shift Algorithm Based on Spark Framework in Public Opinion Clustering

下载PDF

导出

摘要为提高对舆情信息的分析能力,设计并实现基于Spark框架的均值漂移算法。使用Ansj分词、Word2vec算法对舆情信息进行特征提取,然后基于Spark并行计算框架和均值漂移算法原理进行聚类分析。实验结果显示,均值漂移算法在Iris和Wine两组数据集下的准确率均超过90%,聚类结果明显优于K-means算法,具有较好的适应性。性能实验结果表明,增加运行程序的并行化程度可以提高均值漂移算法的运行效率。基于Spark框架的均值漂移算法能有效提高舆情信息的分析能力,助力建立健康的网络环境。 To improve the analysis ability of public opinion information,we design a mean shift algorithm based on the Spark framework.For public opinion,using the Ansj word segmentation and Word2vec algorithm feature extraction,finally clustering based on the Spark framework parallel computing model and the principle of mean shift algorithm.The numerical results show that,in both Iris and Wine data sets,the accuracy of the mean shift algorithm is over 90%,the clustering result is significantly better than the K-means algorithm,then the mean shift algorithm has better adaptability.In the performance experiment,it can effectively improve the operation efficiency of the algorithm and has better data scalability by increasing the degree of parallelization of the algorithm operation program.Therefore,the algorithm can effectively improve the analysis ability of public opinion,and help establish a healthy network environment.

作者张京坤王怡怡 ZHANG Jing-kun;WANG Yi-yi(Taiji Computer Corporation,China Electronics Technology Group Corporation,Beijing 100020,China;School of Mathematics and Information Science,Shaanxi Normal University,Xi’an 710100,China)

机构地区中国电子科技集团太极计算机股份有限公司陕西师范大学数学与信息科学学院

出处《软件导刊》 2022年第6期141-146,共6页 Software Guide

关键词舆情 SPARK 均值漂移聚类并行化 public opinion Spark mean shift clustering parallelization

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献16

1黄晓辉,王成,熊李艳,曾辉.一种集成簇内和簇间距离的加权k-means聚类方法[J].计算机学报,2019,42(12):2836-2848. 被引量：43
2李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：50
3陈玮,卢佳伟.基于特征矩阵优化与数据降维的文本聚类算法[J].数据采集与处理,2021,36(3):587-594. 被引量：17
4朱光辉,黄圣彬,袁春风,黄宜华.SCoS:基于Spark的并行谱聚类算法设计与实现[J].计算机学报,2018,41(4):868-885. 被引量：13
5何倩,李双富,黄焕,徐红.一种海量数据快速聚类算法[J].北京邮电大学学报,2020(3):118-124. 被引量：8
6刘鹏,滕家雨,丁恩杰,孟磊.基于Spark的大规模文本k-means并行聚类算法[J].中文信息学报,2017,31(4):145-153. 被引量：14
7Qing Hou,Guangjian Wang,Xiaozheng Wang,Jiaxi Xu,Yang Xin.Research and Application on Spark Clustering Algorithm in Campus Big Data Analysis[J].Journal of Computer Science Research,2020,2(1):16-20. 被引量：1
8于苹苹,倪建成,姚彬修,李淋淋,曹博.基于Spark框架的高效KNN中文文本分类算法[J].计算机应用,2016,36(12):3292-3297. 被引量：19
9徐宁,王艳芹,董祯,王勇.基于Apache Spark的配电网大数据预处理技术研究[J].华北电力大学学报（自然科学版）,2021,48(2):40-46. 被引量：15
10李乡儒,吴福朝,胡占义.均值漂移算法的收敛性[J].软件学报,2005,16(3):365-374. 被引量：88

二级参考文献138

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2李乡儒,吴福朝,胡占义.均值漂移算法的收敛性[J].软件学报,2005,16(3):365-374. 被引量：88
3许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
4余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
5赵念强,鞠时光.网格计算及网格体系结构研究综述[J].计算机工程与设计,2006,27(5):728-730. 被引量：25
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
7陈娟,陈崚.求解多重序列比对问题的蚁群算法[J].计算机应用研究,2007,24(1):25-30. 被引量：3
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：251
9石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
10何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11

共引文献497

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：15
2许文坚,高维新,程耀坤.基于钻石模型的广东省生猪产业竞争力评价分析[J].现代畜牧兽医,2022(12):56-62. 被引量：3
3刘振宇,丁宇祺.自然环境中被遮挡果实的识别方法研究[J].计算机应用研究,2020,37(S02):333-335. 被引量：8
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：21
5张仲宸,周浩,林波荣,李嘉麒,田昕,吴佳欣,陈帅元,黄莉.基于数据挖掘的办公建筑运行阶段碳排放分析[J].建筑节能,2020,48(11):1-6. 被引量：11
6方洋,李旗,张瑞霞.基于机器学习的网络异常流量分析系统[J].电脑知识与技术,2020,0(4):24-25. 被引量：3
7薛丁文,李建中.基于KD树的k-means聚类算法优化[J].智能计算机与应用,2021,11(11):194-197. 被引量：6
8骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
9徐锦仁,侯品,郭庆昌.基于HSV空间的均值移动算法图像平滑研究[J].水雷战与舰船防护,2009,17(4):10-14.
10宫轶松,归庆明,李保利,乔书波,张灵敏.基于均值漂移的粒子滤波算法设计及其在导航数据处理中的应用[J].测绘学报,2011,40(S1):120-125. 被引量：3

同被引文献4

1严玉良,董一鸿,何贤芒,汪卫.FSMBUS:一种基于Spark的大规模频繁子图挖掘算法[J].计算机研究与发展,2015,52(8):1768-1783. 被引量：21
2车晋强,谢红薇.基于Spark的分层协同过滤推荐算法[J].电子技术应用,2015,41(9):135-138. 被引量：12
3苟元琴.基于Web挖掘的网络舆情监测系统设计[J].信息技术与信息化,2022(1):64-67. 被引量：5
4张岩.基于Spark框架的电商实时推荐系统的设计与实现[J].信息记录材料,2022,23(3):87-89. 被引量：2

引证文献1

1董卓奇,于歌,常奭鹏,周子唯,项奕博策,张佳骏.分布式大数据新闻实时分析系统的设计与实现[J].办公自动化,2024,29(14):69-72.

1张艾宁.基于EEMD-GRU-XGB的舆情热度预测模型[J].信息与电脑,2022,34(5):56-61. 被引量：1
2王宏妫,史先鹏.水下图像基于GAN去模糊的增强技术[J].海洋科学进展,2022,40(2):342-350. 被引量：1
3王力,姚君宇.基于异采样率的频率解算技术[J].舰船电子对抗,2022,45(3):101-104.
4李会斌,米冬冬,孙韶蕾,贾楠.做强做优数字媒体赋能数字保定建设——保定日报社的转型之路[J].城市党报研究,2022(7):12-15.
5Dan Calugaru,Mihai Calugaru.Etiology, pathogenesis, and diagnosis of neovascular glaucoma[J].International Journal of Ophthalmology(English edition),2022,15(6):1005-1010. 被引量：9
6李靖宇.万象归于开合之间华为P50 Pocket“宝盒”魅力[J].新潮电子,2022(2):74-77.
7刘璐,张小明.白银景泰“5·22”黄河石林百公里越野赛舆情情感分析:基于新浪微博的研究[J].中国应急管理科学,2022(2):91-104. 被引量：1
8罗杰,秦来安,侯再红,朱文越,张巳龙.应用于光束质量测量的阵列光纤串扰校正[J].光学精密工程,2022,30(12):1418-1428.
9淡鹏,姜宇,李恒年.航天器返回可达区域国土占比快速计算方法[J].航天返回与遥感,2022,43(3):25-32. 被引量：1
10CHEN Qiru,WANG Qi,SUN Ting,WANG Ziyuan.Iris Segmentation Based on Matting[J].Instrumentation,2022,9(1):12-22. 被引量：1

软件导刊

2022年第6期

浏览历史

内容加载中请稍等...

Spark框架下均值漂移算法对舆情聚类的分析被引量：1

参考文献16

二级参考文献138

共引文献497

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

Spark框架下均值漂移算法对舆情聚类的分析 被引量：1

参考文献16

二级参考文献138

共引文献497

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

Spark框架下均值漂移算法对舆情聚类的分析被引量：1