基于加权距离的局部离群点检测算法被引量：4

A Weighted-distance Based Outliers Detection Algorithm

下载PDF

导出

摘要针对不同属性对数据点之间距离贡献的不同,提出了一种用于距离度量的属性加权策略。标称属性通过属性取值的信息熵进行加权,数值属性通过属性取值的标准差进行加权,混合属性根据标称属性和数值属性综合加权,加权策略可以放大离群点与正常数据之间的差别。仿真实验区分不同的属性类型对所提加权策略进行了验证,实验结果证明了策略的有效性。 With respect to the fact that different attribute has different affluence on the distance between data points,a strategy to weight attributes when calculating distance was proposed. According to the strategy,categorical attributes were weighted based on the entropies while numerical ones based on standard deviations. When dealing with mixed attributes,a method was introduced to integrate the weights gained from categorical attributes and numerical ones. The proposed strategy makes the outliers more significant. Experiments on different kinds of data prove the effectiveness of the proposed strategy.

作者尹成祥张宏军张睿綦秀利王彬

机构地区解放军理工大学

出处《科学技术与工程》北大核心 2014年第15期79-82,92,共5页 Science Technology and Engineering

基金国家自然科学基金(70971137)资助

关键词属性加权信息熵标准差局部离群点因子(local cutlier factor LOF)算法 weighting attributes information entropy standard deviation local cutlier factor（LOF） algorithm

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Hawkins D. Identification of outliers. London: Chapman & Hall, 1980.
2HanJiawei,KamberM,PeiJian.DataMining:ConceptsandTech-niques(thirdedition).范明,孟小峰,译.北京:机械工业出版社,2012:351_375.
3Rousseeuw P J, Hubert M. Robust statistics for outlier detection. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discov- ery, 2011 ;1(1) :73-79.
4Eskin E. Anomaly detection over noisy data using learned probability distributions. Proceedings of the Int. Conf on Machine Learning, Stanford University ,2000:255-262.
5Latecki L J, Lazarevic A, Pokrajac D. Outlier detection with kernel density functions. MLDM, 2007 ;4571:61-75.
6Breunig M M, Kriegel H P, Ng R, et al. LOF: identifying density- based local outliers. ACM SIGMOD Int Conf Management of Data, 2000:93-104.
7Jin W, Tung A K H, Han J, et al. Ranking outliers using symmetric neighborhood relationship. Knowledge Discovery and Data Mining ( PAKDD06), Singapore, 2006:577-593.
8胡彩平,秦小麟.一种基于密度的局部离群点检测算法DLOF[J].计算机研究与发展,2010,47(12):2110-2116. 被引量：53
9王敬华,赵新想,张国燕,刘建银.NLOF:一种新的基于密度的局部离群点检测算法[J].计算机科学,2013,40(8):181-185. 被引量：29
10Ke Zhang, Hutter M, Jin Huidong. A new local distance-based out- lier detection approach for scattered real-world data. Advances in Knowledge Discovery and Data Mining, 2009 ; (5476) : 813-822.

二级参考文献14

1孙焕良,鲍玉斌,于戈,赵法信,王大玲.一种基于划分的孤立点检测算法[J].软件学报,2006,17(5):1009-1016. 被引量：16
2薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
3Breunig M M,Kriegel H P,Ng R T,et al.LOF:Identifying density-based local outliers[C]//Proc of ACM SIGMOD Conf.New York:ACM,2000:427-438.
4Tang J,Chen Z,Fu A,et al.Enhancing effectiveness of outlier detections for low-density patterns[C]//Proc of Advances in Knowledge Discovery and Data Mining 6th Pacific Asia Conf.Berlin:Springer,2002:535-548.
5Papadimitirou S,Kitagawa H,Gibbons P B,et al.LOCI:Fast outlier detection using the local correlation integral[C]//Proc of the 19th Int Conf on Data Engineering.Los Alamitos:IEEE Computer Society,2003:315-326.
6Sanjay C,Pei Sun.SLOM:A new measure for local spatial outliers[J].Knowledge and Information Systems,2006,9(4):412-429.
7Barnett V,Lewis T.Outliers in Statistical Data[M].New York:John Wiley and Sons,1994.
8Johnson T,Kwok I,Ng R T.Fast computation of 2-dimensional depth contours[C]//Proc of the 4th Int Conf on Knowledge Discovery and Data Mining (KDD'98).New York:ACM,1998:224-228.
9Knorr E M,Ng R T.Algorithms for mining distance-based outliers in large datasets[C]//Proc of the 24th Int Conf on Very Large Data Bases.New York:ACM,1998:392-403.
10Ramaswamy S,Rastogi R,Shim K.Efficient algorithms for mining outliers from large data sets[C]//Proc of the 2000 ACM SIGMOD Int Conf on Management of Data.New York:ACM,2000:93-104.

共引文献70

1许新鑫,徐兵,彭潜.基于时空域联合分析的海缆温度异常监测[J].船舶工程,2023,45(S01):67-70. 被引量：2
2揭财明,刘慧君,朱庆生.基于方形对称邻域的局部离群点检测方法[J].计算机应用研究,2012,29(2):472-474. 被引量：5
3肖建琼,宋国琴,罗兴贤.基于时间序列数据流的孤立点自适应异常检测[J].电脑知识与技术,2011,7(12):8927-8929.
4张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[J].吉林大学学报（理学版）,2012,50(6):1214-1217. 被引量：1
5刘耀宗,张宏,孟锦,韩法旺.基于小波密度估计的数据流离群点检测[J].计算机工程,2013,39(2):178-181. 被引量：4
6张付志,魏莎.基于局部密度的用户概貌攻击检测算法[J].小型微型计算机系统,2013,34(4):850-855. 被引量：3
7杨福萍,王洪国,董树霞,牛家洋,丁艳辉.基于聚类划分的两阶段离群点检测算法[J].计算机应用研究,2013,30(7):1942-1945. 被引量：13
8孟静,吴锡生.一种基于聚类和快速计算的异常数据挖掘算法[J].计算机工程,2013,39(8):60-63. 被引量：12
9王敬华,赵新想,张国燕,刘建银.NLOF:一种新的基于密度的局部离群点检测算法[J].计算机科学,2013,40(8):181-185. 被引量：29
10揭财明,黄亚凝,吴凌.浅谈数据挖掘技术在高校家庭经济困难学生资助管理工作中的应用[J].科学咨询,2014(14):24-25. 被引量：1

同被引文献40

1李晨,丁晓群,刘小波,周志辉.基于实时系统数据的电网综合线损分析方法及其应用[J].电力自动化设备,2005,25(3):47-50. 被引量：24
2肖辉,龚薇.基于可达邻域的异常检测算法[J].计算机工程,2007,33(17):74-76. 被引量：4
3姜哲,马少平,夏莹.大型中文古籍《四库全书》自动版面分析系统[J].中文信息学报,2000,14(2):14-20. 被引量：7
4郭晓宇,平西建,周林.基于连通区域的传真图像版面分割与分类算法[J].计算机应用研究,2012,29(8):3198-3200. 被引量：2
5周帆,宋永红.自适应版面分析方法研究[J].计算机光盘软件与应用,2013,16(7):294-295. 被引量：1
6林小雨,江岳文,温步瀛.基于逼近和牛顿插值法的最佳风电接纳水平确定[J].电力系统保护与控制,2015,43(18):12-17. 被引量：6
7张忠林,吴相锦,周生龙.古文献手写汉字切分方法研究[J].郑州大学学报（工学版）,2015,36(6):70-75. 被引量：4
8段露,宋永红,张元林.一种面向问卷图像的版面分析算法[J].软件学报,2017,28(2):234-245. 被引量：8
9任荣梓,高航.基于反馈合并的中英文混排版面OCR技术研究[J].计算机技术与发展,2017,27(3):39-43. 被引量：5
10邹云峰,张昕,宋世渊,倪巍伟.基于局部密度的快速离群点检测算法[J].计算机应用,2017,37(10):2932-2937. 被引量：26

引证文献4

1贾运,田学东,左丽娜.基于局部离群因子和波动阈值的古籍版面图像分析方法[J].科学技术与工程,2020,20(29):12021-12027. 被引量：1
2周慷,高林飞,陆惠惠.基于局部离群点的低压台区线损异常检测[J].自动化与仪器仪表,2022(8):76-79. 被引量：8
3王树涛,朴哲勇,王斌,孟凡燕,田金艳.基于多源数据的供电台区线损率异常点快速定位方法[J].吉林电力,2022,50(6):43-45. 被引量：7
4李亮亮,张聪,曹坤,黎帅锋.自适应进化模型下的土壤重金属含量预测[J].湖南农业大学学报（自然科学版）,2024,50(2):120-126.

二级引证文献15

1崔莉,周钧锴,王念,肖京,季宇宣,姜美驰.面向非特异性腰痛的AI辅助诊断效果评价[J].中国医疗设备,2021,36(9):34-39.
2胡志强,张曼,程绪敏,伍栋文,姬德森.改进型电压损失法低压台区理论线损计算[J].电子设计工程,2023,31(13):123-127. 被引量：2
3吴翠玉.基于采集系统的台区线损异常原因分析[J].光源与照明,2023(7):180-182. 被引量：2
4蔡仕柱.基于梯度算法的低压台区线损异常实时检测方法[J].电工技术,2023(17):63-65. 被引量：3
5刘爱杰.配电网台区线损异常原因与应对措施分析[J].集成电路应用,2023,40(10):108-109. 被引量：1
6孟昊.基于无线通信和双向LSTM网络的有源低压台区线损率估测方法[J].长江信息通信,2023,36(10):111-113. 被引量：1
7王薪.基于短距无线通信的低压台区线损异常检测方法[J].通信电源技术,2023,40(19):143-145.
8雷禕珏.基于离群点分析的低压台区线损异常检测方法[J].中国新技术新产品,2023(23):69-71. 被引量：4
9王泽杰,郭琳,朱丽雪.低压台区线损异常情况及管控策略分析[J].集成电路应用,2023,40(11):57-59. 被引量：2
10王昶.无线通信环境下台区线损异常信号定位研究[J].通信电源技术,2023,40(24):22-24.

1张宁.基于滑动窗口的时间序列离群数据挖掘[J].燕山大学学报,2008,32(6):483-486. 被引量：2
2代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的最小二乘支持向量机回归模型[J].计算机应用研究,2015,32(4):1060-1064. 被引量：4
3邱芹军,谭家政,蔡大伟,刘勇.基于多特征融合的图像检索方法[J].三峡大学学报（自然科学版）,2014,36(1):94-98. 被引量：2
4陆柳生,余明晖.基于离群点检测的学生学习状态分析方法[J].计算机与现代化,2016(3):35-40. 被引量：10
5邓拓,季桂树,李慎笃.基于EAD协议的无线传感器网络高效成簇算法[J].计算机系统应用,2009,18(5):42-45.
6郑志蕴,阮春阳,李伦,李钝.本体语义相似度自适应综合加权算法研究[J].计算机科学,2016,43(10):242-247. 被引量：15
7张贤坤,张倩.基于本体的综合加权案例相似度算法研究[J].计算机应用研究,2017,34(2):422-425. 被引量：1
8蒋培成,陈鸣,李兵.一种优化ZigBee性能的综合加权选路算法[J].小型微型计算机系统,2013,34(9):2014-2017. 被引量：5
9庄景明,王明文,叶茂盛.基于内容过滤的农业信息推荐系统[J].计算机工程,2012,38(11):38-41. 被引量：11
10樊彩霞,马礼.数字图书馆评价系统的研究与实现[J].软件导刊,2008,7(6):112-114. 被引量：1

科学技术与工程

2014年第15期

浏览历史

内容加载中请稍等...

基于加权距离的局部离群点检测算法被引量：4

参考文献12

二级参考文献14

共引文献70

同被引文献40

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于加权距离的局部离群点检测算法 被引量：4

参考文献12

二级参考文献14

共引文献70

同被引文献40

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于加权距离的局部离群点检测算法被引量：4