-
题名空间自回归模型下不完整大数据缺失值插补算法
- 1
-
-
作者
刘晓燕
翟建国
-
机构
昆明理工大学信息工程与自动化学院
-
出处
《吉林大学学报(信息科学版)》
CAS
2024年第2期312-317,共6页
-
基金
云南省自然科学基金资助项目(202224143456)。
-
文摘
针对不完整大数据因其自身结构具有不规则性,导致在进行缺失值插补时计算量大、插补精度低的问题,提出空间自回归模型下不完整大数据缺失值插补算法。利用迁移学习算法在动态权重下过滤出原始数据中冗余数据,区分异常和正常数据,提取残缺数据,采用最小二乘回归对残缺数据实施修补。将缺失值插补分为3种类型,分别为一阶空间自回归模型插补、空间自回归模型插补和多重插补法。根据实际情况将修补后数据插补到合适的位置,实现不完整大数据缺失值插补。实验结果表明,所提方法具有良好的缺失值插补能力。
-
关键词
迁移学习
不完整大数据
缺失值插补
空间回归模型
数据修正
-
Keywords
transfer learning
incomplete big data
imputation of missing values
spatial regression model
data correction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不完整大数据的分布式聚类填充算法
被引量:16
- 2
-
-
作者
冷泳林
陈志奎
张清辰
鲁富宇
-
机构
渤海大学信息科学与技术学院
大连理工大学软件学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第5期19-25,共7页
-
基金
国家自然科学基金资助项目(U1301253)
中国高等职业技术教育研究会规划课题基金资助项目(GZYGH1213036
+2 种基金
GZYGH1213035)
辽宁省自然科学基金资助项目(2013020014)
辽宁省社会科学基金资助项目(L14AGL002)
-
文摘
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播(AP)算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于Map Reduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。
-
关键词
不完整大数据
近邻传播聚类
云计算
数据填充
不完整信息系统
-
Keywords
incomplete big data
Affinity Propagation (AP) clustering
cloud computing
data filling
incomplete information system
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于AP聚类的不完整大数据填充
被引量:7
- 3
-
-
作者
冷泳林
张清辰
鲁富宇
-
机构
渤海大学信息科学与技术学院
大连理工大学软件学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第10期123-127,141,共6页
-
基金
国家自然科学基金(No.U1301253)
辽宁省自然科学基金(No.2013020014)
+1 种基金
中国高等职业技术教育研究会规划课题(No.GZYGH1213036
No.GZYGH1213035)
-
文摘
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。
-
关键词
不完整大数据
聚类分析
数据填充
-
Keywords
incomplete big data
clustering analysis
data imputation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于改进遗传算法的不完整大数据填充挖掘算法
被引量:6
- 4
-
-
作者
郑斌
-
机构
福建江夏学院电子信息科学学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2016年第2期96-99,共4页
-
文摘
传统的大数据填充挖掘过程存在耗时高、效率低的缺陷,对此提出基于改进遗传算法的不完整大数据填充挖掘算法.该算法先融合于BP人工网络神经算法随机产生不完整大数据初始网络权值,并对该组权值进行训练,设计一个不完整大数据基因矩阵,利用遗传算法以该基因矩阵为依据计算出不完整大数据适应值函数,并同时进行编码、杂交、变异等遗传操作,在此基础上进行不完整大数据信息的全局搜索,以其搜索的结果为核心将大数据划分为完整与不完整数据,采用信息论中熵值的概念利用同一类完整数据信息的属性值对缺失值进行填充.实验仿真证明,基于改进遗传算法的不完整大数据填充挖掘方法能实现对不完整大数据的挖掘,提高缺失数据的填充精度.
-
关键词
不完整大数据
数据填充
遗传神经网络
-
Keywords
incomplete data
Data filled
Genetic neural network
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于CFDs规则不完整大数据修复序列判定仿真
- 5
-
-
作者
高尚
赵昕
-
机构
吉林农业大学信息技术学院
-
出处
《计算机仿真》
北大核心
2020年第10期338-341,397,共5页
-
文摘
针对传统大数据修复序列判定方法因忽略了获取大数据权重,导致修复判定时间长、准确率低等问题,提出基于CFDs规则的不完整大数据修复序列判定方法。基于CFDs与数据关联规则,利用两者联系找出不一致元组集合。采用修复代价模型对大数据权重、目标对象以及序列三方面做修复处理,得出不完整大数据修复序列。利用一致性清洗方法判定修复序列是否正确,若不正确对其再次修改。实验结果表明,研究方法修复大数据序列准确率与效率高,操作简单且判定速度快,具有较高鲁棒性,为大数据的安全使用提供有效保证。
-
关键词
不完整大数据
修复序列判定
关联规则
一致性清洗
-
Keywords
Incomplete big data
Repair sequence decision
Association rule
Consistent cleaning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-