一种基于聚类和快速计算的异常数据挖掘算法被引量：12

An Outlier Data Mining Algorithm Based on Clustering and Rapid Calculation

下载PDF

导出

摘要传统局部离群因子(LOF)算法在动态增量数据库环境下,进行二次异常数据挖掘需重新计算所有数据对象局部偏离因子,存在效率较低的问题。为此,提出一种基于聚类和快速计算的异常数据挖掘算法。对传统DBSCAN算法进行改进,并且在该改进算法聚类的基础上,仅对部分数据对象计算局部偏离因子。实验结果表明,该算法在动态增量数据库环境下,与LOF与lncLOF算法相比,不仅计算时间效率高,而且能提高挖掘异常数据的精度。 The traditional Local Outlier Factor（LOF） algorithm need recalculate the local outlier factors of the all of data when does the second outlier mining in dynamic incremental database environment.This paper proposes an outlier mining algorithm based on clustering and rapid calculation.It improves the traditional DBSCAN algorithm,uses the improved DBSCAN algorithm to form a set of clusters,and computes the local outlier factors of the objects which are a part of dataset.Experimental results show that this algorithm performs better than LOF and lncLOF algorithm not only in the time consuming but also the accuracy of mining outliers.

作者孟静吴锡生

机构地区江南大学物联网工程学院

出处《计算机工程》 CAS CSCD 2013年第8期60-63,68,共5页 Computer Engineering

基金江苏省333高层次人才工程基金资助项目(BRA2010128)

关键词动态增量数据库局部离群因子算法 lncLOF算法 DBSCAN算法聚类 dynamic incremental database Local Outlier Factor（LOF） algorithm lncLOF algorithm DBSCAN algorithm clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
2Breunig M M,Kriegel H P,Ng R T,et al.LOF:IdentifyingDensity-based Local Outliers[C]//Proc.of ACM SIGMODConference.New York,USA:ACM Press,2000:427-438.
3Zhang Ke,Hutter M,Jin Huidong.A New Local Distance-based Outlier Detection Approach for Scattered Real-worldData[C]//Proc.of PAKDD’09.Heidelberg,Germany:Springer,2009:813-822.
4胡彩平,秦小麟.一种基于密度的局部离群点检测算法DLOF[J].计算机研究与发展,2010,47(12):2110-2116. 被引量：53
5Sanjay C,Sun Pei.SLOM:A New Measure for Local SpatialOutliers[J].Knowledge and Information Systems,2006,9(4):412-429.
6薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
7杨风召,朱扬勇,施伯乐.IncLOF:动态环境下局部异常的增量挖掘算法[J].计算机研究与发展,2004,41(3):477-484. 被引量：34
8Tang Jian,Chen Zhixiang,Fu A W C,et al.EnhancingEffectiveness of Outlier Detections for Low DensityPatterns[C]//Proc.of PAKDD’02.London,UK:Springer-Verlag,2002:535-548.
9Ester M,Kriegel H P,Xu X.A Density-based Algorithm forDiscovering Clusters in Large Spatial Databases withNoise[C]//Proc.of the 2nd ACM SIGKDD’96.Portand,USA:[s.n.],1996:226-231.

二级参考文献95

1孙焕良,鲍玉斌,于戈,赵法信,王大玲.一种基于划分的孤立点检测算法[J].软件学报,2006,17(5):1009-1016. 被引量：16
2文俊浩,吴中福,吴红艳.空间孤立点检测[J].计算机科学,2006,33(5):186-187. 被引量：5
3杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22
4汪加才,张金城,江效尧.一种有效的可视化孤立点发现与预测新途径[J].计算机科学,2007,34(6):200-203. 被引量：5
5薛安荣,鞠时光.基于空间约束的离群点挖掘[J].计算机科学,2007,34(6):207-209. 被引量：12
6赵科平,周水庚,关佶红,等.一种新的离群数据对象发现方法∥中国人工智能学会第10届全国学术年会论文集.北京:北京邮电大学出版社,2003.
7Aggarwal C C, Yu P. Outlier detection for high dimensional dataft Proc. of the ACM SIGMOD International Conference on Management of Data. Santa Barbara, 2001:37-47
8Angiulli F, Pizzuti C. Outlier Mining in Large High Dimensional Data Sets. IEEE Trans. Knowledge and Data Eng. , 2005, 2 (17) :203-215
9Angiulli F, Basta S, Pizzuti C. Distance-based detection and prediction of outlier. IEEE Trans. Knowledge and Data Eng. , 2006, 2(18): 145-160
10Aggarwal C C. Re - designing Distance Functions and Distance - based Applications for High Dimensional Data. SIGMOD Record Date, 2001, 30(1):13-18

共引文献219

1钟诗胜,陕振勇,付旭云,王体春.基于二次指数平滑的发动机气路参数偏差值平滑[J].航空精密制造技术,2012,48(6):26-28. 被引量：1
2蒋盛益,李庆华,王卉,孟中楼.一种增强的局部异常挖掘方法[J].计算机研究与发展,2005,42(2):210-216. 被引量：8
3黄洪宇,林甲祥,陈崇成,樊明辉.离群数据挖掘综述[J].计算机应用研究,2006,23(8):8-13. 被引量：42
4张应辉,饶云波.最小差异度聚类在异常入侵检测中的应用[J].计算机应用研究,2007,24(12):193-195. 被引量：1
5涂溢彬,饶云波,廖云,周明天.蜜网系统在检测新型Rootkit中的应用[J].计算机技术与发展,2008,18(1):181-184.
6李健,阎保平,李俊.基于记忆效应的局部异常检测算法[J].计算机工程,2008,34(12):4-6. 被引量：8
7张树森,伏利,董刚.离群点删除算法的研究[J].装备制造技术,2008(7):13-15. 被引量：3
8王津,饶云波.基于SVM汽车牌照识别技术研究[J].福建电脑,2008,24(9):125-126.
9薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
10张宁.基于滑动窗口的时间序列离群数据挖掘[J].燕山大学学报,2008,32(6):483-486. 被引量：2

同被引文献117

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2王占全,王申康,华成.空间分类数据同位规则挖掘算法[J].计算机辅助设计与图形学学报,2005,17(10):2339-2344. 被引量：5
3耿技,印鉴.改进的共享型最近邻居聚类算法[J].电子科技大学学报,2006,35(1):70-72. 被引量：5
4刘波,潘久辉.基于群体智能的增量数据挖掘方法研究[J].计算机工程与设计,2006,27(11):1939-1942. 被引量：2
5宋中山,成林辉,吴立峰.一种基于关联规则的增量数据挖掘算法[J].湖北大学学报（自然科学版）,2006,28(3):240-243. 被引量：9
6Jain A K,Murty M N,Flynn P J. Data clustering:A review[J]. ACM Computing Surveys, 1999,31 (3) : 264-323.
7Zhang T, Ramakrishnan R, Livny M. Birch: An efficient data clustering method for very large databases[C]///Proceedings of the 1996 ACM SIGMOD International Conference on Manage- ment of Data. Montreal:ACM Press, 1996:103-114.
8Guha S, Rastogi R, Shim K. Cure: An efficient clustering algo- rithrn for large databases[C]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. Seat- fie: ACM Press, 1998:73-84.
9Cao F, Liang J, Bai L, et al. A framework for clustering categori-cal time-evolving data[J]. IEEE Transactions on Fuzzy Sys- tems, 2010,18 (5) : 872-882.
10Chen H L,Chen M S,Lin S C. Catching the trend:A framework for clustering concept-drifting categorical data[J]. IEEE Tran- sactions on Knowledge and Data Engineering, 2009,21 (5) : 652- 665.

引证文献12

1武健.时序Web数据挖掘方法[J].计算机应用,2014,34(A02):120-122. 被引量：1
2李艳红,李德玉,王素格.一种符号型增量数据标签算法[J].计算机科学,2015,42(6):223-227. 被引量：3
3陈晖.旋转机械振动故障相似性系数的优化挖掘方法[J].科技通报,2016,32(4):126-129. 被引量：2
4姚一永,唐黎.机器人视觉路径跟踪识别定位优化仿真[J].计算机仿真,2016,33(5):401-404. 被引量：3
5邓荣,唐林.基于改进神经网络的光纤通信故障数据的自动识别[J].激光杂志,2016,37(6):142-146. 被引量：7
6张岚.物联网设备故障数据定位优化仿真研究[J].计算机仿真,2016,33(9):385-387. 被引量：4
7段青玲,肖晓琰,刘怡然,张璐.基于SW-SVR的畜禽养殖物联网异常数据实时检测方法[J].农业机械学报,2017,48(8):159-165. 被引量：14
8许鹏,张继栋.基于改进遗传算法的光纤网络异常数据检测[J].科技通报,2016,32(7):163-166. 被引量：19
9孟海东,任敬佩.基于云计算平台的动态增量密度算法研究[J].计算机应用与软件,2016,33(6):16-19. 被引量：1
10王铁军,赵礼剑,朱熙.基于随机序列GPS数据集的用户位置挖掘方法研究[J].地理信息世界,2018,25(2):113-116. 被引量：2

二级引证文献60

1郭彬,王立中,刘玉敏.嵌入式网络传感器多路观测数据实时检测仿真[J].计算机仿真,2018,35(12):329-332. 被引量：1
2彭梅.大数据环境下的文本信息挖掘方法[J].现代电子技术,2017,40(23):123-126. 被引量：1
3于淑云.光纤网络中的云数据并行调度[J].计算机测量与控制,2017,25(12):195-198. 被引量：2
4张展彬,阳晓薇.特种设备信息加密系统设计[J].计算机测量与控制,2017,25(12):267-270. 被引量：3
5梁建平.云计算环境下光纤激光网络异常数据的高精度分类[J].激光杂志,2017,38(12):124-128. 被引量：2
6杨国章.基于物联网技术的奶牛成长监控管理系统建设[J].自动化与仪器仪表,2018,0(2):155-157.
7李昂.医院通信网络的异常数据监测技术改进研究[J].电子设计工程,2018,26(5):165-168. 被引量：7
8李承林.基于光闸单向传输数据交换技术研究[J].激光杂志,2018,39(4):134-138. 被引量：6
9樊强.大数据环境下安全信息优化保护仿真[J].计算机仿真,2018,35(6):176-179. 被引量：4
10崔崴,周玲.关于多机器人运动编队精确定位仿真研究[J].计算机仿真,2018,35(7):257-260. 被引量：1

1尹敏杰,东春昭.一种改进的K-means聚类算法与孤立点检测研究[J].电脑知识与技术,2010,6(7X):6085-6086.
2许琳,赵茂先.基于密度的局部离群数据挖掘算法研究[J].山东理工大学学报（自然科学版）,2016,30(6):7-11. 被引量：2
3张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[J].吉林大学学报（理学版）,2012,50(6):1214-1217. 被引量：1
4曹洪其,余岚,孙志挥.基于网格聚类技术的离群点挖掘算法[J].计算机工程,2006,32(11):119-121. 被引量：15
5周世波,徐维祥.一种基于偏离的局部离群点检测算法[J].仪器仪表学报,2014,35(10):2293-2298. 被引量：13
6胡彩平,秦小麟,任韧.局部空间离群点算法的改进及其实现[J].中国图象图形学报,2010,15(10):1471-1477. 被引量：3
7张蕾.一种基于核空间局部离群因子的离群点挖掘方法[J].上海电机学院学报,2014,17(3):132-136. 被引量：3
8马菲,朱昌杰,郑颖,邓杰.一种基于可变网格划分的离群点检测算法[J].江南大学学报（自然科学版）,2015,14(6):751-757. 被引量：1
9荣新节,张虹.基于网络的数据仓库动态增量维护算法与模型[J].小型微型计算机系统,2005,26(1):115-118. 被引量：3
10韩敏,张占奎.基于加权核独立成分分析的故障检测方法[J].控制与决策,2016,31(2):242-248. 被引量：9

计算机工程

2013年第8期

浏览历史

内容加载中请稍等...

一种基于聚类和快速计算的异常数据挖掘算法被引量：12

参考文献9

二级参考文献95

共引文献219

同被引文献117

引证文献12

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

一种基于聚类和快速计算的异常数据挖掘算法 被引量：12

参考文献9

二级参考文献95

共引文献219

同被引文献117

引证文献12

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

一种基于聚类和快速计算的异常数据挖掘算法被引量：12