基于改进聚类算法的网络舆情分析系统研究被引量：14

Research and Implementation of Desktop Search Engine Based on Tika and Lucene

下载PDF

导出

摘要针对互联网舆情挖掘领域的特点，提出了一种基于向量空间模型VSM的文本聚类算法STCC（Similarity Threshold Control Clustering BasedVSM）。该算法按照层次聚类从下至上凝聚的策略，获取初始簇信息，然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点，克服其缺点。与层次聚类相比，每一次聚类时不需要比较所有簇之间的相似度，降低了时间复杂度，提高了聚类的效率；与K—means算法相比，不需要确定K值，灵活性更高。通过实验表明，该算法聚类效果好，实用性高，适合大规模的文本聚类。 By analyzing the existed clustering algorithms, a new text clustering algorithm, which uses similarity threshold control clustering based VSM （STCC） , is proposed in this paper. The algorithm is based on the hierarchical clustering bottom to top strategy to get the information of primary clusters and can merge clusters in a threshold of clustering similarity according to K-means. The algorithm overcomes the shortcomings of calculating the similarity in all clusters with every clustering and pre-determining the value K. The experimental results show that the algorithm can reduce the time complexity, improve the clustering efficiency, is more flexible and more applicable.

作者王旭仁李娜何发镁王彦丽宋蓓

机构地区首都师范大学信息工程学院北京理工大学图书馆

出处《情报学报》 CSSCI 北大核心 2014年第5期530-537,共8页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金项目(61373161) 北京市属高等学校人才强教深化计划“中青年骨干人才”项目(PHR201008083)资助

关键词互联网舆情数据挖掘关键词提取文本聚类 internet public opinion, data mining, keywords extraction, text clustering

分类号 TP393.09 [自动化与计算机技术—计算机应用技术] G206 [文化科学—传播学]

引文网络
相关文献

参考文献20

1Hakala K,Van Landeghem S, Salakoski T. EVEX in ST 13: Application of a large-scale text mining resource to event extraction and network construction [ C ]// Proceedings of the BioNLP Shared Task 2013 Workshop, Sofia, Bulgaria, 2013:26-34.
2Liu Bing, Zhang Lei. A Survey of Opinion Mining and Sentiment Analysis [ J ]. Mining Text Data, Springer us, 2012:415-463.
3周亚东,孙钦东,管晓宏,李卫,陶敬.流量内容词语相关度的网络热点话题提取[J].西安交通大学学报,2007,41(10):1142-1145. 被引量：27
4杨震,段立娟,赖英旭.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010,36(5):669-673. 被引量：25
5胡艳丽,白亮,张维明.网络舆情中一种基于OLDA的在线话题演化方法[J].国防科技大学学报,2012,34(1):150-154. 被引量：29
6钱爱玲,瞿彬彬,卢炎生,陈攀攀,陈国栋.多时间序列关联规则分析的论坛舆情趋势预测[J].南京航空航天大学学报,2012,44(6):904-910. 被引量：23
7刘锦德,刘咏梅.基于不完全信息演化博弈模型的网络舆情传播羊群行为[J].国防科技大学学报,2013,35(5):96-101. 被引量：28
8方正智思互联网舆情监控系统[EB/OL].[2014-06-02].http://www.founder.eom.cn/zh.cn/Products/201106/show20110601150539.htm.
9人民网舆情[EB/OL].[2014-06-04].yuqing.people.com.cn.
10徐雅斌,李艳平,郑芬.基于MapReduce架构的网络热点话题发现[J].华中科技大学学报（自然科学版）,2012,40(S1):236-239. 被引量：3

二级参考文献145

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3赵楠楠,谢文艺,魏诚.SARS传播的数学模型[J].大连海事大学学报,2005,31(1):110-112. 被引量：4
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：36
5王泽彬,金飞,李夏,王冠.Web数据挖掘技术及实现[J].哈尔滨工业大学学报,2005,37(10):1403-1405. 被引量：11
6于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
7徐晓日.网络舆情事件的应急处理研究[J].华北电力大学学报（社会科学版）,2007(1):89-93. 被引量：142
8石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
9[加]韩家炜坎伯著范明等译.数据挖掘[M].,2001-08..
10Erkan G, Radev D R. LexRank: Graph-Based Lexical Centrality as Salience in Text Summarization. Journal of Artificial Intelligence Research, 2004, 22 : 457 - 479.

共引文献248

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
3吴少华,崔鑫,胡勇.基于SNA的网络舆情演变分析方法[J].四川大学学报（工程科学版）,2015,47(1):138-142. 被引量：14
4张玉英,孟海东.数据挖掘技术中聚类算法的改进研究[J].包头钢铁学院学报,2005,24(4):338-341. 被引量：4
5杨占华,杨燕.一种基于SOM和K-means的文档聚类算法[J].计算机应用研究,2006,23(5):73-74. 被引量：16
6孟海东,张玉英.基于密度和对象方向聚类算法的改进[J].计算机工程与应用,2006,42(20):154-156. 被引量：14
7孟岩,刘希玉,刘艳丽.一种基于蚁群算法的K-means算法——在公路运输枢纽宏观布局规划中的应用[J].计算机工程与应用,2008,44(1):179-182. 被引量：8
8曹文平.一种有效k-均值聚类中心的选取方法[J].计算机与现代化,2008(3):95-97. 被引量：9
9徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
10赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75

同被引文献178

1张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163. 被引量：55
2邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
3冯少荣,肖文俊.基于密度的DBSCAN聚类算法的研究及应用[J].计算机工程与应用,2007,43(20):216-221. 被引量：34
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1082
5Abdul-Mageed M M. Online news sites and journalism 2. 0 : Reader comments on A1 Jazeera Arabic [ J ]. tripleC : Communication, Capitalism & Critique. Open Access Journal for a Global Sustainable Information Society, 2008, 6 ( 2 ) : 59-76.
6Liu Q, Zhou M, Zhao X. Understanding News 2.0: A framework for explaining the number of comments from readers on online news [ J ] . Information & Management, 2015, 52(7) : 764-776.
7Walther J B, DeAndrea D, Kim J, et al. The influence of online comments on perceptions of antimarijuana public service announcements on YouTube [ J ]. Human Communication Research, 2010, 36 (4) : 469-492.
8Houston J B, Hansen G J, Nisbett G S. Influence of user comments on perceptions of media bias and third-person effect in online newsEJ~. Electronic News, 2011, 5(2) : 79 -92.
9Saha S K. Person Specific Comment Extraction and Classification [ D ]. Jadavpur University Kolkata, 2012.
10Zhuang L, Jing F, Zhu X Y. Movie review mining and summarization [ C ]//Proceedings of the 15th ACM international conference on Information and knowledge management. ACM, 2006: 43-50.

引证文献14

1彭浩,周杰,周豪,赵丹丹.微博网络中基于主题发现的舆情分析[J].电讯技术,2015,55(6):611-617. 被引量：4
2夏火松,李保国,杨培.基于改进K-means聚类的在线新闻评论主题抽取[J].情报学报,2016,35(1):55-65. 被引量：16
3陈显龙,李姝娟.基于情感扩散和社交关系的微博情感传播特性和能量传递特征分析[J].情报科学,2017,35(4):32-36. 被引量：5
4裘江南,谷文静,翟劼.基于用户影响力的热点话题检测方法研究[J].情报杂志,2017,36(4):156-161. 被引量：5
5洪亮,李雪思,周莉娜.领域跨越:数据挖掘的应用和发展趋势[J].图书情报知识,2017,34(4):22-32. 被引量：18
6贡晓静.基于改进关联聚类的光纤网络异常数据隔离算法[J].激光杂志,2018,39(8):193-196. 被引量：4
7桂春,黄旺星.基于改进的标签传播算法的网络聚类方法[J].吉林大学学报（工学版）,2018,48(5):1600-1605.
8金玉然,戢守峰.基于科学文献聚类分析的扎根理论研究范式改进[J].技术经济,2018,37(3):82-88.
9李建新.基于数据流MSW算法在BBS舆情分析系统中的应用[J].合肥工业大学学报（自然科学版）,2019,42(2):195-199. 被引量：3
10张颖怡,章成志,陈果.基于关键词的学术文本聚类集成研究[J].情报学报,2019,38(8):860-871. 被引量：16

二级引证文献77

1周金连,王静君.早期参与者的力量:对公共事件微博舆情演化周期的研究[J].中国网络传播研究,2021(1):127-152.
2毕达宇,张苗苗,曹安冉.基于情感依恋的用户高质量在线评论信息生成模式[J].情报科学,2020,0(2):47-51. 被引量：7
3倪志恒,杨盛菁.我国“养老服务”研究热点分析——基于文献计量方法[J].广西质量监督导报,2021(3):23-24.
4王宜鸿,魏雪迎,叶鹰.大小数据集上的信息分析刍议[J].图书馆杂志,2018,37(12):14-19. 被引量：6
5陈可嘉,赵政.用户交易数据不足情况下的商品关联规则扩展与应用[J].福州大学学报（哲学社会科学版）,2019,33(1):42-47. 被引量：2
6李慧芳.无线局域网技术在校园网中的安全能力提高措施研究[J].软件,2017,38(4):95-98. 被引量：2
7柳益君,何胜,熊太纯,冯新翎,武群辉.大数据挖掘视角下的图书馆智慧服务——模型、技术和服务[J].现代情报,2017,37(11):81-86. 被引量：58
8徐明磊,赵博文,诸葛福民.高校网络舆情获取方法研究[J].软件导刊,2018,17(10):48-50. 被引量：1
9受志敏,张晓媛.微博用户影响力问题的国内研究述评[J].传播力研究,2019,0(12):93-93.
10张喜艳,赫玲玲,解月光,杨彬.网络学习空间生态化模型构建与生态化提升策略研究[J].中国电化教育,2018(11):133-138. 被引量：9

1王鹏飞,舒红平,郑皎凌,文立玉.演化聚类在离散制造业质量管理中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):71-75.
2忻凌,倪志伟,黄玲.基于数据流的BIRCH改进聚类算法[J].计算机工程与应用,2007,43(5):166-168. 被引量：6
3徐野,季雨.一种MapReduce框架下的客户分群算法研究[J].电子世界,2017,0(7):60-60.
4赵云,顾健,张笑笑.一种改进聚类算法在入侵检测中的应用[J].信息安全与技术,2012,3(12):15-19. 被引量：1
5何波.网络舆情生命周期的挖掘策略研究[J].福建电脑,2014,30(10):12-12.
6王培涌,陈好刚,王树峰.一种改进的中文文本特征选择方法[J].现代计算机,2009,15(12):75-77.
7李春富,郑小青,葛铭.基于改进聚类算法的RBF网络及其应用[J].南京工业大学学报（自然科学版）,2011,33(6):72-76. 被引量：7
8毛雨辉.基于一种改进聚类算法的雷达导引头产品功能模块划分方法研究[J].中国机械工程,2010,21(3):314-319. 被引量：3
9郭应林.基于改进聚类算法的僵尸网络检测[J].信息系统工程,2016,0(9):40-41.
10顾强.基于消除噪声的聚类算法的手机用户行为分析[J].移动通信,2014,38(7):36-39. 被引量：1

情报学报

2014年第5期

浏览历史

内容加载中请稍等...

基于改进聚类算法的网络舆情分析系统研究被引量：14

参考文献20

二级参考文献145

共引文献248

同被引文献178

引证文献14

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于改进聚类算法的网络舆情分析系统研究 被引量：14

参考文献20

二级参考文献145

共引文献248

同被引文献178

引证文献14

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于改进聚类算法的网络舆情分析系统研究被引量：14