一种基于Spark的论文相似性快速检测方法被引量：2

An Approach for Scientific Paper Similarity Rapid Detection Based on Spark

导出

摘要 [目的/意义]从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小,用于满足在线论文相似性检测秒级响应需求。[方法/过程]采用分治法策略,对已知文本句集进行基于正交基的软聚类预处理,并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测,采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论]通过200万规模的已知文本集实验结果显示,综合4种类型的待检测论文,所提出的倒排索引结合软聚类算法准确率P为100.0%,召回率R为93.6%,调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右,比Simhash算法高约23%。在检测速度上,对于一篇字数为5 000左右的待检测论文,检测时间约为6.5秒,比Simhash算法快近300倍,比LCS算法快约4 000倍,此外,实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。 [ Purpose/significance ] This paper detects the texts similar with papers to be detected from the large scale known texts and computes their similarities, to meet the second response requirement of online paper similarity de- tection. [ Method/process ] It uses divide and conquer strategy to softly cluster known text sentence set, and establishes inverted index for each cluster after soft clustering. Then it performs the similarity computing between papers to be detec- ted and known texts on the fast data processing platform - Spark, using the method of character combined with phrase. [ Result/conclusion ] Through the experiment of two million known texts set, the results show that the proposed inverted index algorithm combined with soft clustering has precision rate P 100.0% , recall rate R 93.6% and harmonic mean F value 96.7%, integrating four types of papers to be detected. The harmonic mean F is about t0% higher than LCS algo- rithm and 23 % higher than Simhash algorithm. In the detection of the paper with 5 000 words, the proposed algorithm has the detection time of about 6.5 seconds, nearly 300 times faster than the Simhash algorithm, and approximately 4 000 times faster than LCS algorithm. In addition, the results also show that the Spark based distributed parallel similarity de- tection algorithm has better scalability.

作者卓可秋童国平虞为

机构地区南京大学信息管理学院江苏省数据工程与知识服务重点实验室(南京大学)

出处《图书情报工作》 CSSCI 北大核心 2015年第11期134-142,共9页 Library and Information Service

基金国家社会科学基金重大项目"面向突发事件应急决策的快速响应情报体系研究"(项目编号:13&ZD174) 国家社会科学基金项目"基于关联数据的图书馆语义云服务研究"(项目编号:12CTQ009) 江苏省社会科学项目青年项目"基于语义云服务的数字阅读推广研究"(项目编号:14TQC003) 中央高校基本科研业务费专项资金资助项目"基于用户的标语用分析的社会化标签知识组织研究"(项目编号:1435003) 江苏省高校自然科学研究面上资助项目"基于语义消歧技术的社会化标签知识组织研究"(项目编号:15KJB520013)研究成果之一

关键词论文相似性检测 Spark快数据处理正交基软聚类倒排索引 paper similarity detection Spark fast data processing orthogonal soft clustering inverted index

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献25

1Apache spark [ EB/OL ]. [ 2015 - 03 - 18]. http://spark, a-pache. org.
2Si A, Leong H V,Lau R W H. Check: A document plagiarism de-tection system [ C ] //Proceedings of the 1997 ACM Symposium onApplied Computing. New York: ACM, 1997 : 70 -77.
3Schleimer S, Wilkerson D S,Aiken A. Winnowing: Local algo-rithms for document fingerprinting [ C ] //Proceedings of the 2003ACM SIGMOD International Conference on Management of Data.New York:ACM, 2003: 76 -85.
4秦新国.基于句子相似度的文档复制检测算法研究[J].现代图书情报技术,2007(11):63-66. 被引量：9
5Roul R K,Mittal S,Joshi P. Efficient approach for near duplicatedocument detection using textual and conceptual based techniques[M ] // Advanced Computing, Networking and Informatics -Volume1. Springer International Publishing, 2014 : 195 -203.
6黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：226
7白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
8李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量：5
9Luo Xi, Najjar W, Hristidis V. Efficient near-duplicate documentdetection using FPGAs [ C ]//Big Data, 2013 IEEE InternationalConference on. Silicon Valley : IEEE, 2013 : 54-61.
10Monostori K, Zaslavsky A, Schmidt H. Parallel and distributeddocument overlap detection on the Web [ M ] //Applied ParallelComputing. New Paradigms for HPC in Industry and Academia.London:Springer-Verlag London, 2001 : 206 -214.

二级参考文献148

1王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
2史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4何明,胡彩霞.一种文本相似性的度量方法和计算方法[J].黄山学院学报,2005,7(6):71-72. 被引量：3
5Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
6Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
7Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
8Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
9Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
10Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.

共引文献264

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：17
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7王森,王宇.基于文本结构树的论文复制检测算法[J].现代图书情报技术,2009(10):50-55. 被引量：4
8徐德玉,王迪.基于COPS原型系统的网上文章复制检测[J].科技信息,2009(31):49-50. 被引量：1
9秦玉平,冷强奎,王秀坤,王春立.基于局部词频指纹的论文抄袭检测算法[J].计算机工程,2011,37(6):193-194. 被引量：10
10仇壮丽.在线论文复制检测系统设计[J].计算机工程与应用,2011,47(19):12-14.

同被引文献15

1索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
2赵俊杰,胡学钢.一种基于段落词频统计的论文抄袭判定算法[J].计算机技术与发展,2009,19(4):231-233. 被引量：12
3李卓,邓明荣.相似代码检测工具及其案例分析[J].计算机工程与科学,2010,32(4):71-74. 被引量：2
4唐华姣,何友全,徐小乐,徐澄.基于Lucene的分布式并行索引[J].计算机技术与发展,2011,21(2):123-126. 被引量：7
5张春燕,刘发升.关于Lucene索引工具的性能优化研究[J].计算机技术与发展,2011,21(5):121-123. 被引量：2
6游静,董小龙,罗巨波,孙玉强.云模式下计算系统的性能监控与评价方法[J].系统仿真学报,2013,25(12):2845-2850. 被引量：2
7丁祥武,李清炳,乐嘉锦.使用MapReduce构建列存储数据的索引[J].计算机应用与软件,2014,31(2):24-28. 被引量：6
8窦晓峰,陈胜,王熠航,麦联叨,由建宏.应用分布式索引提高海量数据查询性能[J].计算机系统应用,2014,23(6):259-261. 被引量：7
9任树怀.LUCENE搜索算法剖析及优化研究[J].图书馆杂志,2014,33(12):17-23. 被引量：12
10李志明.知网、万方、维普论文相似性检测系统比较研究[J].大学图书情报学刊,2015,33(1):61-64. 被引量：14

引证文献2

1黄思颖,蔡桂兰,徐凯,江和松,邱舟强,陈平华.基于SolrCloud的分布式科技项目查重系统[J].科技管理研究,2018,38(7):236-242. 被引量：4
2翟晔,刘志国,王春晖.一种基于程序依赖图的代码聚类方法[J].内蒙古师范大学学报（自然科学版）,2021,50(6):513-517. 被引量：1

二级引证文献5

1吴彬,杨振兴,郭芳琳,唐笑梅.工程项目查重系统的相关应用分析[J].经济研究导刊,2020,0(11):189-191.
2李善青,安淑荻,邢晓昭.一种基于关联数据的科技项目查重系统[J].计算机与数字工程,2022,50(5):959-963.
3王东,王飘,江俊鹏,李青,徐晨阳.科技项目申报书查重方法研究[J].中国科技资源导刊,2022,54(5):30-40. 被引量：1
4王前莉,李颖.嵌入式处理器自定义指令迭代识别方法仿真[J].计算机仿真,2024,41(8):276-280.
5陶秀杰,周育忠,韦嵘晖,张自锋.企业科技项目相似性检测业务流程设计与研究[J].信息通信,2019,32(1):185-187. 被引量：3

1姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
2裴志松.基于Lucene的毕业论文相似性检测[J].长春工程学院学报（自然科学版）,2013,14(4):105-107.
3张静静,杨燕,王红军,韩晓涛,邓强.一种新的软聚类投票法及其并行化实现[J].中国科学技术大学学报,2016,46(3):173-179. 被引量：2
4孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
5余元辉,邓莹.能量矩与颜色聚类相结合的图像检索方法[J].河南大学学报（自然科学版）,2012,42(1):96-100. 被引量：1
6于洪.三支聚类分析[J].数码设计,2016,5(1):31-35. 被引量：12
7刘伙玉,王东波.面向论文相似性检测的数据预处理研究[J].现代图书情报技术,2015(5):50-56. 被引量：5
8徐浙君.一种基于采样遗传的文本软聚类方法[J].计算机光盘软件与应用,2014,17(14):128-129.
9冯中慧,鲍军鹏,沈钧毅.基于EM算法的文本聚类优化研究[J].信息与控制,2006,35(5):657-661. 被引量：2
10冯中慧,鲍军鹏,沈钧毅.一种增量式文本软聚类算法[J].西安交通大学学报,2007,41(4):398-401. 被引量：3

图书情报工作

2015年第11期

浏览历史

内容加载中请稍等...

一种基于Spark的论文相似性快速检测方法被引量：2

参考文献25

二级参考文献148

共引文献264

同被引文献15

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于Spark的论文相似性快速检测方法 被引量：2

参考文献25

二级参考文献148

共引文献264

同被引文献15

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于Spark的论文相似性快速检测方法被引量：2