基于改进的LDA主题模型的微博用户聚类研究被引量：13

Research on Micro-blog Users Clustering Based on Improved LDA Topic Model

导出

摘要大规模文档集中潜藏的语义信息一般可以用潜在狄利克雷(LDA)主题模型识别,因为微博短文本语义稀疏,所以在微博短文本聚类中的应用并不理想。利用传统的潜在狄利克雷分布的主题模型来给微博建模,得到的微博用户分布并不直观,通过改进的LDA模型将用户表示为主题概率向量,不仅能够充分地挖掘文本隐藏的语义信息,同时能够直观地呈现用户的主题分布。提出基于密度区域划分的K-means算法对微博用户进行聚类。使用真实的微博数据集进行验证,与传统的K-means聚类方法对比,采用该方法对微博用户的聚类能够有较明显的提高。 Latent Dirichlet Allocation （LDA） model can be used for identifying semantic information from large-scale document set. Due to the semantic sparse of micro-blog short text, the application of micro-blog short text clustering is not ideal. Therefore, this paper uses the topic model of the traditional LDA to construct micor-blog model, which obtains indirect distribution of micro-blog users. The improved LDA model presents users as subject probability vector; which can not only mine the hidden semantic information of text, but also can directly present topic distribution of users. The paper proposes K-means algorithm based on density region devision to cluster users of micro-biog. The paper uses real data sets of micor-blog for the verification. To compare with the traditional K-means clustering method, the proposed method can obviously improve the clustering of micor-blog users.

作者裴超肖诗斌江敏

机构地区北京信息科技大学计算机学院北京拓尔思信息技术股份有限公司

出处《情报理论与实践》 CSSCI 北大核心 2016年第3期135-139,共5页 Information Studies:Theory & Application

基金国家自然科学基金项目"网页内容真实性评价研究"(项目编号:61171159) 北京市发改委项目"异构大数据分析挖掘整合技术北京市工程实验室创新能力建设项目"的成果

关键词微博主题模型文本聚类 K均值算法 micro-blog topic model text clustering K-means algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] G206 [文化科学—传播学]

引文网络
相关文献

参考文献16

1张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：79
2马慧芳,贾美惠子,袁媛,张志昌.融合词项关联关系的半监督微博聚类算法[J].计算机工程,2015,41(5):202-206. 被引量：3
3张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：167
4LENG B, ZENG J, YAO M, et al. 3D object retrieval with multitopic model combining relevance feedback and LDA model[J]. Image Processing, IEEE Transactions on, 2015, 24 ( 1 ) : 94-105.
5MA D, RAO Lan, WANG Ting. An empirical study of SLDA for information retrieval [ J ]. Information Retrieval Technolo- gy, 2011 (1): $4-92.
6白友东,庄伯金.基于LDA和K均值的微博用户聚类研究[EB/OL].[2014-01-06].http://www.paper.edu.cn/releasepaper/eontent/201401-216.
7NALLAPATI R M, AHMED A, XING E P, et al. Joint latent topic models for text and citations [ C ] //Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Dis- covery and Data Mining. ACM, 2008 : 542-550.
8HSU B J P, GLASS J. Style & topic language model adaptation using HMM-LDA [ C] //Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2006: 373-381.
9MOGHADDAM S, ESTER M. ILDA: interdependent LDA model for learning latent aspects and their ratings from online product reviews [ C ] //Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Infor- mation Retrieval. ACM, 2011: 665-674.
10史剑虹,陈兴蜀,王文贤.基于隐主题分析的中文微博话题发现[J].计算机应用研究,2014,31(3):700-704. 被引量：19

二级参考文献124

1秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
2赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：24
3谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
4Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
5Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
6Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
7Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
8Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284.
9Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006.
10Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.

共引文献387

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：4
2席崇俊,刘文斌,丁楷.词共现频次变化视角下的动态主题识别研究[J].知识管理论坛,2022(2):197-208. 被引量：1
3邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
4朱芷瑶.从“鸡汤”到“反鸡汤”:B站五四青年节系列短片中的情绪传播研究[J].传媒论坛,2023,6(17):59-61. 被引量：1
5高顺恒.怎样呈现创新:媒体的5G报道分析——基于LDA主题建模技术[J].传播力研究,2020(5):71-71.
6温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：11
7刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
8姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
9张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
10孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：12

同被引文献161

1于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
2胡燕.档案学理论研究的新视角——公众档案接受问题研究[J].档案学通讯,2006(2):21-24. 被引量：3
3刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
4周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
5魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404. 被引量：136
6李伟,黄颖.文本聚类算法的比较[J].科技情报开发与经济,2006,16(22):234-236. 被引量：4
7邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
8徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
9李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
10朱岩,林泽楠.电子商务中的个性化推荐方法评述[J].中国软科学,2009(2):183-192. 被引量：53

引证文献13

1郑德俊,朱婷婷,沈军威.基于改进K均值算法的移动图书馆用户评论需求聚类研究[J].数字图书馆论坛,2017(10):26-31. 被引量：2
2崔金栋,杜文强,关杨.基于大数据与LDA融合的微博信息推荐方法研究[J].情报科学,2018,36(9):27-31. 被引量：17
3陈果,吴微.细分领域LDA主题分析中选词方案的效果对比研究[J].情报理论与实践,2019,42(6):138-143. 被引量：9
4张明生,邓少灵.基于MBUT-LDA主题模型的微博文本挖掘研究[J].电子商务,2019,20(7):70-71.
5虞哲英,关贝,昝道广,吕荫润,毕丽阳,王永吉.一种不依赖用户行为数据的科研文献推送系统[J].文献与数据学报,2019,1(2):76-89. 被引量：1
6张建华,冉佳,刘柯.基于改进LDA-FCM的UserCF知识推荐研究[J].科技管理研究,2020,40(19):140-146. 被引量：2
7赵钰潇,化柏林.我国省级科技管理部门官网文本数据的主题建模分析研究[J].情报理论与实践,2020,43(11):116-121. 被引量：2
8张斌.主题模型视阈下的《国家情报法》法律文本分析[J].情报探索,2021(2):33-39.
9陈明红,黄涵慧.用户视角下微博档案主题识别与情感分析研究[J].档案与建设,2021,4(9):36-42. 被引量：3
10Kai WANG,Fuzhi WANG.Topic-Feature Lattices Construction and Visualization for Dynamic Topic Number[J].Journal of Systems Science and Information,2021,9(5):558-574. 被引量：1

二级引证文献42

1郜童童,刘文泽,孟斌,黄松,陈思宇.基于主题模型的文化资源密集区感知研究——以北京门头沟为例[J].北京联合大学学报,2019,33(2):45-55. 被引量：1
2王中伟,裘杭萍,孙毅,邓巧雨.基于时间上下文的军事信息推荐方法[J].指挥信息系统与技术,2019,10(6):55-59. 被引量：4
3田世海,董月文,王健.网民舆情偏好挖掘及应用研究——以EGE推荐模型为例[J].情报杂志,2020,39(2):108-115.
4张鹏程.基于LDA用户兴趣模型的远程教育课程推荐方法研究[J].现代电子技术,2020,43(3):173-176. 被引量：4
5张莉曼,张向先,卢恒.基于双螺旋结构模型的移动图书馆APP用户需求挖掘研究[J].图书馆学研究,2020(6):62-70. 被引量：9
6安璐,周亦文.恐怖事件情境下微博信息与评论用户的画像及比较[J].情报科学,2020,38(4):9-16. 被引量：13
7李铁军,颜端武,杨雄飞.基于情感加权关联规则的微博推荐研究[J].数据分析与知识发现,2020,4(4):27-33. 被引量：5
8崔金栋,陈思远.融媒体信息推荐模型构建与信息推荐方法研究[J].情报科学,2020,38(7):52-58. 被引量：5
9崔金栋,陈思远,郭天成,梁雯豪,郭元婕.大数据时代融媒体信息资源管理技术需求与热点分析研究[J].情报科学,2020,38(8):35-41. 被引量：10
10陈博,马秀峰.国内LDA模型研究现状可视化分析[J].情报探索,2020(11):128-134. 被引量：4

1常文璇,戚银城.基于XML文档的文本隐藏算法与实现[J].电力科学与工程,2009,25(5):64-67. 被引量：1
2李改,李磊.基于双向主题模型的协同过滤算法[J].中山大学学报（自然科学版）,2013,52(5):68-72. 被引量：2
3杨磊,李臣龙,汪婧.基于社区信息的链接分析与预测研究[J].安徽工程大学学报,2015,30(2):60-63.
4彭劲杰.基于耦合度的三个分布问题研究[J].电脑知识与技术,2005(12):163-165.
5赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4):732-737. 被引量：18
6师尚伟,黄永峰,王烨.基于网络文本大数据的信息隐藏方法[J].小型微型计算机系统,2017,38(2):227-231. 被引量：12
7吴晶,王书文.XML中的信息隐藏[J].西北民族大学学报（自然科学版）,2005,26(1):72-76. 被引量：6
8吴晶,王书文.基于XML语言的信息隐藏方法[J].中国安全科学学报,2005,15(12):78-80. 被引量：14
9桑军,何明,林强.基于双随机相位编码的文本隐藏[J].计算机应用,2010,30(12):126-128.
10白剑,徐迎晖,杨榆.利用文本载体的信息隐藏算法研究[J].计算机应用研究,2004,21(12):147-148. 被引量：12

情报理论与实践

2016年第3期

浏览历史

内容加载中请稍等...

基于改进的LDA主题模型的微博用户聚类研究被引量：13

参考文献16

二级参考文献124

共引文献387

同被引文献161

引证文献13

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于改进的LDA主题模型的微博用户聚类研究 被引量：13

参考文献16

二级参考文献124

共引文献387

同被引文献161

引证文献13

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于改进的LDA主题模型的微博用户聚类研究被引量：13