期刊文献+
共找到430篇文章
< 1 2 22 >
每页显示 20 50 100
改进K-SMOTE随机森林算法在地震信息发布安全风险评估中的应用研究
1
作者 李亚龙 何琳 +2 位作者 万杰 潘丹 孙静 《地震工程学报》 北大核心 2025年第1期168-177,共10页
为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本... 为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本划分与模型优化,最终实现目标安全风险等级评估。对实际地震信息发布案例进行评测,文章所提方法构建模型评估准确率为92%,模型精确率和查全率分别为0.81和0.92,模型泛化能力强,能有效用于地震信息发布安全风险评估。本研究为完善地震信息发布安全评估体系、改进地震信息发布环境、降低安全风险提供了参考。 展开更多
关键词 地震信息发布 风险等级评估 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于SMOTE+ENN的煤矿安全隐患文本分类研究
2
作者 罗海平 曾向阳 陈勇 《中国矿业》 北大核心 2025年第1期116-125,共10页
在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic... 在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)与编辑最近邻规则欠采样技术(Edited Nearest Neighbor,ENN)相结合的混合采样方法,并基于卷积神经网络(Convolutional Neural Network,CNN)对安全隐患文本输出类别预测结果。以安全文库网中某煤业安全风险清单共计4539条数据为例,首先,对安全隐患文本进行清洗、分词及向量化,采用SMOTE算法对小类别数据集进行插值样本生成,平衡各类样本之间数量分布差异;然后,利用ENN算法对生成的合成样本进行欠采样,剔除异常和噪声样本;最后,采用基于CNN的分类器对抽样后安全隐患文本进行建模和预测。实验结果表明,该方法相较于传统基准采样方法在准确率上提升了4%~8%,在F-Measure上提升了4%~7%,证明该方法在处理多类别不平衡煤矿安全隐患文本分类问题上的有效性和可行性,在煤矿安全管理和隐患预警等方面具有重要意义和实际应用价值。 展开更多
关键词 深度学习 smote ENN CNN 煤矿安全隐患 安全管理
在线阅读 下载PDF
基于SMOTE采样和集成学习的低渗透率储层流体性质识别方法
3
作者 杨文凯 孙建孟 +2 位作者 杜钦波 张宇昆 罗歆 《测井技术》 2025年第1期1-9,共9页
目前低渗透率储层是我国油气开发领域的重点,其流体性质的识别对油田勘探开发具有重要指导意义。低渗透率储层岩石物理特征复杂、测井响应特征表现不明显,导致流体性质识别困难。集成学习因其强大的非线性能力和高效性成为储层智能评价... 目前低渗透率储层是我国油气开发领域的重点,其流体性质的识别对油田勘探开发具有重要指导意义。低渗透率储层岩石物理特征复杂、测井响应特征表现不明显,导致流体性质识别困难。集成学习因其强大的非线性能力和高效性成为储层智能评价的有力工具,但最终评价效果受限于样本质量。针对低渗透率储层的标签数据分布不均匀和稀缺的问题,提出了一种基于SMOTE(Synthetic Minority Oversampling Technique)采样和集成学习的低渗透率储层流体性质识别方法。利用SMOTE采样合理增加岩心标签数据,以符合集成学习模型的训练需求,进而优选集成学习模型,实现对低渗透率储层流体性质的准确识别。基于SMOTE采样和集成学习的流体识别方法在东营凹陷Y9XX井组的应用结果表明,该方法能有效识别低渗透率储层的流体性质,其准确率达87.44%。在此基础上,对东营凹陷的Y94X井进行盲井测试,最终的分类结果满足实际测井解释对精度的需求。SMOTE采样结合集成学习的流体识别模式为后续机器学习在储层评价的广泛应用提供了依据。 展开更多
关键词 流体性质识别 集成学习 smote采样 样本不均匀 东营凹陷
在线阅读 下载PDF
基于Borderline-SMOTE和OOA-SVM的心脏病诊断预测模型
4
作者 祖璇 张广海 《兰州文理学院学报(自然科学版)》 2025年第1期46-52,共7页
为实现心脏病精准预测,构建了一种预测准确率较高的心脏病诊断预测模型.首先对原始数据集进行pearson相关性分析和归一化处理;然后采用过采样技术Borderline-SMOTE算法,平衡训练数据集的少数类;之后利用鱼鹰优化算法(Osprey Optimizatio... 为实现心脏病精准预测,构建了一种预测准确率较高的心脏病诊断预测模型.首先对原始数据集进行pearson相关性分析和归一化处理;然后采用过采样技术Borderline-SMOTE算法,平衡训练数据集的少数类;之后利用鱼鹰优化算法(Osprey Optimization Algorithm,OOA)优化支持向量机(support vector machine,SVM),获得最优参数组合(C,g);最后在测试数据集上进行分类预测.与SSA-SVM、SMA-SVM和SVM相比,本文方法OOA-SVM的预测准确率最高,达到了95.08%,且模型稳定性最好. 展开更多
关键词 Borderline-smote 鱼鹰优化算法 支持向量机 心脏病诊断预测
在线阅读 下载PDF
基于SMOTE-IKPCA-SeNet深度迁移学习的小批量生产质量预测研究 被引量:1
5
作者 杨剑锋 崔少红 +1 位作者 段家琦 王宁 《工业工程》 2024年第2期98-106,157,共10页
随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利... 随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利用深度迁移学习的方式将历史生产数据作为源域迁移至小样本目标产品数据进行质量预测。首先,通过合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)和改进的核主成分分析(improved kernel principal component analysis,IKPCA)算法筛选源域和目标域的可迁移特征,这不仅兼顾了特征重要性和可迁移性,还减少了“负迁移”,提高了模型泛化能力;然后,采用结合通道注意力机制的卷积神经网络SeNet构建基于深度迁移学习的质量预测模型。仿真结果表明,随着目标域样本的增加,所提方法的预测准确性明显优于广泛采用的支持向量机建模方法。同时,所提可迁移特征筛选方法显著提高了深度迁移学习的质量预测效果,为复杂的小批量生产过程质量保证提供了新方法。 展开更多
关键词 小批量生产质量预测 深度迁移学习 smote IKPCA SeNet
在线阅读 下载PDF
基于SMOTE和XGBoost的天然气水合物与天然气储层识别
6
作者 杜睿山 黄玉朋 +4 位作者 付晓飞 孟令东 张轶楠 靳明洋 蔡洪波 《特种油气藏》 CAS CSCD 北大核心 2024年第5期11-19,共9页
天然气水合物与天然气储层识别一直是海洋能源勘探开发阶段的重点任务。然而,由于测井数据与储层之间的复杂非线性关系以及测井数据的不均衡性,导致传统储层识别方法往往精度不高,严重限制了研究区域的勘探进展。为解决上述问题,提出了... 天然气水合物与天然气储层识别一直是海洋能源勘探开发阶段的重点任务。然而,由于测井数据与储层之间的复杂非线性关系以及测井数据的不均衡性,导致传统储层识别方法往往精度不高,严重限制了研究区域的勘探进展。为解决上述问题,提出了一种用于储层识别的混合方法,即采用改进的SMOTE算法增加少数类储层样本数量,并进行去噪处理,可有效地解决数据不均衡的问题,再利用XGBoost算法对储层进行识别。结果表明:相比于传统的机器学习方法,RLSMOTE-XGB方法在储层识别方面具有更高的有效性和准确性,该方法解决了传统机器学习方法在样本类别不均衡时的局限性,储层识别精度从66.7%提高至86.4%,算法的性能得到显著提升。该研究可有效提高天然气水合物与天然气储层识别效果,对实现智能化识别储层有重要意义。 展开更多
关键词 储层识别 smote 机器学习 RLsmote-XGB 离群点检测算法
在线阅读 下载PDF
基于 SMOTE 算法的老年肌少症患者跌倒风险预测模型的建立
7
作者 孙敏 王娅 +2 位作者 丁佐玲 钱维群 孟雅 《护理管理杂志》 CSCD 2024年第10期899-903,共5页
目的探讨老年肌少症患者跌倒的危险因素,并基于SMOTE算法构建风险预测模型。方法选取2020年12月至2022年9月某医院收治的256例老年肌少症患者为研究对象,根据跌倒发生情况分为跌倒组和未跌倒组。采用Logistic回归分析筛选老年肌少症患... 目的探讨老年肌少症患者跌倒的危险因素,并基于SMOTE算法构建风险预测模型。方法选取2020年12月至2022年9月某医院收治的256例老年肌少症患者为研究对象,根据跌倒发生情况分为跌倒组和未跌倒组。采用Logistic回归分析筛选老年肌少症患者跌倒的危险因素,应用SMOTE算法构建老年肌少症患者跌倒的预测模型,并对预测模型的预测效能进行分析。结果256例老年肌少症患者中65例发生跌倒,跌倒发生率为25.39%;年龄≥70岁、严重肌少症期、睡眠障碍、糖尿病、视力障碍及直立性低血压是老年肌少症患者跌倒的危险因素,原始预测模型Logit(P 1)=1.057×年龄+0.808×肌少症临床分期+0.901×睡眠障碍+0.835×糖尿病+0.828×视力障碍+1.221×直立性低血压-2.535,基于SMOTE算法的预测模型Logit(P 2)=1.043×年龄+0.879×肌少症临床分期+0.962×睡眠障碍+0.717×糖尿病+0.810×视力障碍+1.314×直立性低血压-1.445,ROC曲线显示,P 2模型ROC曲线下面积为0.952(95%CI:0.920,0.972),显著高于P 1模型的ROC曲线下面积0.761(95%CI:0.693,0.828),基于SMOTE算法预测模型的校准曲线显示预测值和实际值一致性良好。结论年龄、肌少症临床分期、睡眠障碍、糖尿病、视力障碍及直立性低血压是老年肌少症患者跌倒的危险因素,基于SMOTE算法的预测模型具有较好的预测效能,有助于临床护理人员识别老年肌少症跌倒高危人群。 展开更多
关键词 老年 肌少症 跌倒 护理 风险 smote算法 预测模型
在线阅读 下载PDF
不平衡数据集的DC-SMOTE过采样方法
8
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据集 过采样 高斯核函数 局部引力 高不平衡数据 合成少数类过采样 不平衡度 分类
在线阅读 下载PDF
基于SMOTE和Inception-CNN的种植和组培金线莲鉴别 被引量:1
9
作者 蓝艳 王武 +3 位作者 许文 柴琴琴 李玉榕 张勋 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2024年第1期158-163,共6页
金线莲是一种珍贵中药材,其治疗、保健作用十分显著。金线莲培育方式主要有种植、组培等,不同培育方式的金线莲,在性状上仅表现出细微差异,但药用、市场价值差异显著,培育方式鉴别能有效保证药用疗效、维护良好市场秩序,然而由于不同品... 金线莲是一种珍贵中药材,其治疗、保健作用十分显著。金线莲培育方式主要有种植、组培等,不同培育方式的金线莲,在性状上仅表现出细微差异,但药用、市场价值差异显著,培育方式鉴别能有效保证药用疗效、维护良好市场秩序,然而由于不同品系、产地、培育时间等复合差异的影响,增加了培育方式鉴别难度与复杂度。提出一种基于改进1D-Inception-CNN模型的金线莲培育方式鉴别方法。采用近红外光谱仪采集种植、组培金线莲的光谱,首先使用合成少数类过采样技术(SMOTE)进行过采样以解决种植品、组培品样本比例不平衡问题,其次构建基于改进Inception结构的一维卷积神经网络对来自不同品系、产地、培育时间的金线莲进行种植品、组培品鉴别,最后采用贝叶斯优化方法对构建的卷积神经网络模型超参数进行优化;最终五折交叉验证平均鉴别准确率、精确率、召回率、综合评价指标高达97.95%、 96.16%、 100%、 98.02%。研究表明,实验提出的鉴别模型为快速鉴别金线莲种植品、组培品提供一种有效方法。 展开更多
关键词 金线莲 少数类过采样技术 Inception模块 一维卷积神经网络 贝叶斯优化
在线阅读 下载PDF
基于混合式SMOTE和RF模型的小额贷款公司客户信用风险研究 被引量:2
10
作者 严晴 徐海燕 《运筹与管理》 CSSCI CSCD 北大核心 2024年第1期191-197,共7页
小额借贷中的个人信用风险问题持续制约着小额贷款行业的健康可持续发展。针对小贷公司在进行信用风险评估时对高违约风险客户识别准确率较低的难题,运用混合式SMOTE、RF算法来同时处理业务数据中高维、非均衡两个问题。本文借助江苏J... 小额借贷中的个人信用风险问题持续制约着小额贷款行业的健康可持续发展。针对小贷公司在进行信用风险评估时对高违约风险客户识别准确率较低的难题,运用混合式SMOTE、RF算法来同时处理业务数据中高维、非均衡两个问题。本文借助江苏J小贷公司的实例数据,依次构建随机森林(Random Forest, RF)模型、SMOTE-RF模型以及Borderline-SMOTE-RF模型并进行模型测试;再选用SVM算法进行对比实验以此衡量模型的信用风险评价精度。随后基于模型对于指标重要性的评分筛选出6项指标作为影响个人信用风险的关键指标。实验证明基于Borderline-SMOTE-RF算法对于小额贷款个人信用风险评价模型的分类性能最佳;在筛选关键指标时,为避免人工合成虚拟样本对指标重要性影响,需要结合三类模型评分进行综合选择。 展开更多
关键词 信用风险 随机森林(RF) smote 分类模型 指标体系
在线阅读 下载PDF
SMOTE数据预处理算法在砂型铸造复杂铸件缺陷预测中的应用
11
作者 潘徐政 刘迎辉 +5 位作者 李文 计效园 殷亚军 吴来发 解明国 周建新 《铸造》 CAS 2024年第10期1473-1479,共7页
针对实际生产过程采集的复杂转向桥铸件工艺数据中冷隔、气孔、砂眼、缩孔等缺陷类别的数据量严重不平衡、复杂铸件缺陷预测模型准确率不高的问题,结合砂型铸造实际工况,引入了SMOTE(Synthetic Minority Oversampling Technique)数据预... 针对实际生产过程采集的复杂转向桥铸件工艺数据中冷隔、气孔、砂眼、缩孔等缺陷类别的数据量严重不平衡、复杂铸件缺陷预测模型准确率不高的问题,结合砂型铸造实际工况,引入了SMOTE(Synthetic Minority Oversampling Technique)数据预处理算法,探究其在砂型铸造复杂铸件缺陷预测中的应用。根据采集到的复杂铸件不平衡数据集的特点,基于SMOTE数据预处理算法,科学扩充了不平衡数据集,创建了可用于训练复杂铸件缺陷预测模型的平衡数据集,数据预处理前后的模型预测准确率从86.50%提高至97.91%。 展开更多
关键词 转向桥铸件 砂型铸造 不平衡数据集 数据预处理 smote算法 缺陷预测
在线阅读 下载PDF
基于SMOTETomek过采样方法与领域自适应迁移学习的风电机组故障诊断
12
作者 张伊杰 刘宝良 +2 位作者 王承民 杨镜非 谢宁 《太阳能学报》 EI CAS CSCD 北大核心 2024年第10期635-644,共10页
为在不平衡数据上得到准确分类的故障诊断模型,提出将SMOTETomek过采样方法与领域自适应迁移学习相结合的故障诊断算法框架。首先利用滑动窗口采样技术将数据采样成二维时空窗口数据,然后执行SMOTETomek过采样操作,可保留并丰富完整的... 为在不平衡数据上得到准确分类的故障诊断模型,提出将SMOTETomek过采样方法与领域自适应迁移学习相结合的故障诊断算法框架。首先利用滑动窗口采样技术将数据采样成二维时空窗口数据,然后执行SMOTETomek过采样操作,可保留并丰富完整的时序故障特征。针对过采样算法引入噪声信息的问题,引入领域自适应迁移学习算法在原始数据与过采样后的数据之间提取不变特征,使得过采样算法的引入的噪声信息可被过滤掉。在中国某实际风电场的实验结果显示,所提方法可在高度不平衡的数据上完成模型训练,准确识别各类型故障并精确辨识故障过程对应的时间窗口,诊断性能显著优于基于先前用于应对数据不平衡所普遍使用的过采样方法得到的模型。 展开更多
关键词 风电机组 故障诊断 监督控制和数据采集系统 深度学习 smote过采样方法 领域自适应
在线阅读 下载PDF
一种分层SMOTE交叉验证法--应对数据泄露与样本不平衡 被引量:1
13
作者 李佳静 林少聪 郑寒秀 《闽江学院学报》 2024年第2期56-68,共13页
在处理不平衡数据时,即使训练集和测试集之间互不重叠,过采样技术仍然可能导致数据泄露。为了解决这一问题,提出了一种分层SMOTE交叉验证法(stratified SMOTE cross-validation),将训练集中各类别样本均匀地划分为K折,在每一折中,独立... 在处理不平衡数据时,即使训练集和测试集之间互不重叠,过采样技术仍然可能导致数据泄露。为了解决这一问题,提出了一种分层SMOTE交叉验证法(stratified SMOTE cross-validation),将训练集中各类别样本均匀地划分为K折,在每一折中,独立地使用SMOTE算法进行数据平衡,使得每一折内的少数类样本特征仅在该折内使用。这样做不仅确保了训练与验证数据之间的完全独立,规避了数据泄露的风险,而且分类器能够充分学习少数类样本的特征。此外,结合了集成学习和参数优化技术,以增强模型的分类和泛化能力。在UCI数据集上的实验结果显示,分层SMOTE交叉验证法在分类性能上并不逊色于现有方法,并且不同的K值导致的数据分布差异会对模型性能产生影响。该方法有效地提升了模型对不平衡数据的处理能力,为不平衡学习问题提供了一定的参考价值。 展开更多
关键词 数据不平衡 数据泄露 分层smote交叉验证
在线阅读 下载PDF
基于SMOTE算法和机器学习模型建立原发性肝癌术后的预后预测模型
14
作者 潘比 余靖华 +2 位作者 黄译贤 伍亚舟 李芳 《陆军军医大学学报》 CAS CSCD 北大核心 2024年第19期2236-2240,共5页
目的基于合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)算法和机器学习模型构建原发性肝癌术后的预后预测模型。方法选取美国国立癌症研究所的监测、流行病学及最终结果(Surveillance,Epidemiology,and End ... 目的基于合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)算法和机器学习模型构建原发性肝癌术后的预后预测模型。方法选取美国国立癌症研究所的监测、流行病学及最终结果(Surveillance,Epidemiology,and End Results,SEER)数据库中4297例患者进行回顾性队列研究,通过独热编码和平均值插补法进行数据预处理,利用SMOTE算法解决数据类别不平衡问题,将临床变量纳入机器学习模型,基于决策树(decision tree,DT)、随机森林(random forest,RF)、梯度提升决策树(gradient boosting decision tree,GBDT)、极限梯度提升算法(eXtreme Gradient Boosting,XGBoost)方法构建预后预测模型(SMOTE+DT/RF/GBDT/XGBoost),通过比较多种模型的性能,筛选出最佳的预测模型。结果组合模型SMOTE+RF展示出最优的预测性能,受试者工作特征曲线(receiver operating characteristic curve,ROC)下的面积(area under the curve,AUC)、准确率和精确率均高于其他模型,分别为0.895、0.811、0.806。结论基于SMOTE+RF算法的原发性肝癌的预后预测模型可有效预测原发性肝癌患者的生存结局。 展开更多
关键词 原发性肝癌 少数类过采样技术算法 机器学习 预测模型
在线阅读 下载PDF
结合SMOTE技术与优化算法的支持向量机在慢性心衰不良结局预测中的应用
15
作者 李晓桐 程璠 +3 位作者 田晶 闫晶晶 张岩波 韩清华 《中国卫生统计》 CSCD 北大核心 2024年第6期802-806,共5页
目的应用优化算法的支持向量机(support vector machine,SVM)结合合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)预测慢性心衰患者不良结局,提高分类模型预测性能。方法顺序入选2014年1月至2017年12月,山西... 目的应用优化算法的支持向量机(support vector machine,SVM)结合合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)预测慢性心衰患者不良结局,提高分类模型预测性能。方法顺序入选2014年1月至2017年12月,山西省两所三级甲等医院心内科确诊为慢性心力衰竭的1183例住院患者,收集患者的病历资料。基于原始训练集构建logistic回归(logistic regression,LR)与支持向量机模型,同时结合SMOTE算法构建LR、SVM、遗传算法支持向量机(genetic algorithm support vector machine,GA-SVM)和粒子群支持向量机模型(particle swarm support vector machine,PSO-SVM),通过灵敏度(sensitivity,SEN)、准确度(accuracy,ACC)、特异度(specificity,SPE)、G-means、F-measure、ROC曲线下面积(area under receiver operating characteristic curve,AUC)等指标综合评价各模型的分类性能。结果相较于对原始数据进行直接分类,应用SMOTE技术均衡化数据集后,模型性能明显提高。均衡化训练集构建LR、SVM、GA-SVM和PSO-SVM模型结果表明,GA-SVM和PSO-SVM在SPE、ACC指标低于LR;SEN、G-means、F-measure和AUC均优于LR。GA-SVM和PSO-SVM的综合效果显著高于SVM(SEN、G-means、F-measure指标表现均优于SVM)。结论基于均衡化数据集构建GA-SVM或PSO-SVM模型可提高SVM对于心衰预后的预测性能。 展开更多
关键词 smote 支持向量机 遗传算法优化 粒子群算法优化 慢性心力衰竭
在线阅读 下载PDF
SMOTE类算法研究综述 被引量:3
16
作者 王晓霞 李雷孝 林浩 《计算机科学与探索》 CSCD 北大核心 2024年第5期1135-1159,共25页
合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细... 合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细阐述了SMOTE方法的基本原理,然后主要从数据级、算法级两个层面系统性地梳理分析SMOTE类算法,并介绍数据级和算法级混合改进的新思路。数据级改进是在预处理时通过不同操作删除或添加数据来平衡数据分布;算法级改进不会改变数据分布,主要通过修改或创建算法来加强对少数类样本的关注度。二者相比,数据级方法应用受限更少,算法级改进的算法鲁棒性普遍更高。为了更全面地提供SMOTE类算法的基础研究材料,最后列出常用数据集、评价指标,给出未来可能尝试进行的研究思路,以更好地应对不平衡数据问题。 展开更多
关键词 不平衡数据 合成少数类过采样技术(smote) 过采样 监督学习
在线阅读 下载PDF
基于SMOTE-Tomek和CNN耦合的滑坡易发性评价模型及其应用——以三峡库区秭归—巴东段为例 被引量:2
17
作者 于宪煜 汤礼 《中国地质灾害与防治学报》 CSCD 2024年第3期141-151,共11页
中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问... 中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问题,使得训练集的建立在本质上是对非滑坡数据进行了欠采样,导致滑坡事件的重要信息特征丢失,进而影响到滑坡易发性评价的可靠性。文章以三峡库区巴东至秭归段为例,选取高程、坡度等14个评价因子作为滑坡易发性评价因子,划分原始训练集与验证集,采用SMOTE-Tomek方法(synthetic minority oversampling technique-Tomek Links,SMOTE-Tomek)处理原始训练数据集,构建输入训练集,输入并训练卷积神经网络模型(convolutional neural networks,CNN),得到SMOTE-Tomek-CNN耦合模型,再通过将SMOTE-Tomek方法与传统的欠采样方法(random undersampling,RUS),分别与CNN模型和支持向量机模型(support vector machine,SVM)交叉组合成SMOTE-Tomek-SVM、RUS-CNN和RUS-SVM三种耦合模型,并与SMOTE-CNN耦合模型进行对比。结果表明,在四种耦合模型中,SMOTE-CNN耦合模型的特定类别精度与ROC曲线下面积较高,结果分别为73.60%和0.965,表明该方法的预测能力优于传统的方法,能为研究区滑坡预测工作提供可靠参考。 展开更多
关键词 滑坡 滑坡易发性评价 smote-Tomek 卷积神经网络 不平衡数据
在线阅读 下载PDF
基于改进SMOTE算法的网络入侵检测研究
18
作者 王震 佟志勇 +1 位作者 彭美华 杨自恒 《黑龙江大学自然科学学报》 CAS 2024年第4期470-476,共7页
为了解决入侵检测领域中网络异常样本难以捕捉所导致网络数据正负样本不平衡的问题,提出了一种改进的人工少数类过采样法(Synthetic minority oversampling technique,SMOTE)算法,该算法增加了更多具有边界信息的样本,以提升少数样本的... 为了解决入侵检测领域中网络异常样本难以捕捉所导致网络数据正负样本不平衡的问题,提出了一种改进的人工少数类过采样法(Synthetic minority oversampling technique,SMOTE)算法,该算法增加了更多具有边界信息的样本,以提升少数样本的数量。通过对预处理后的少量数据进行过采样,实现数据平衡,将平衡后的数据输入机器模型以提高分类结果。在网络安全实验室-知识发现数据库(Network security laboratory-knowledge discovery in databases,NSL-KDD)数据集中使用了多种机器学习模型进行实验。结果表明,改进的SMOTE算法能够有效解决数据样本不平衡问题,相比于不做处理和传统SMOTE算法,具有较高的准确率、精确率、召回率和F1值(F1-score),此模型具有更快的收敛速度。 展开更多
关键词 入侵检测 不平衡数据集 人工少数类过采样法 机器学习
在线阅读 下载PDF
小样本下基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断
19
作者 葛平淑 王朝阳 +3 位作者 王阳 张涛 薛红涛 夏晨迪 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第8期1-9,共9页
轮毂电机复杂多变的运行环境可能导致轴承故障而危及电动车辆行驶安全,为解决传统故障诊断方法在小样本条件下识别精度低的问题,提出一种基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断方法。首先,通过合成少数过采样技术(SMOTE)扩展训练数据... 轮毂电机复杂多变的运行环境可能导致轴承故障而危及电动车辆行驶安全,为解决传统故障诊断方法在小样本条件下识别精度低的问题,提出一种基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断方法。首先,通过合成少数过采样技术(SMOTE)扩展训练数据集,生成与真实样本分布相似的故障样本,并使用主成分分析(PCA)优化其时域和频域的特征。然后,通过引入非线性收敛因子和Levy飞行策略改进传统的灰狼优化算法(GWO),使用改进的灰狼优化算法(IGWO)优化随机森林(RF)模型的参数。最后,基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断模型实现故障状态的识别,并在轮毂电机试验台架上进行了实验验证。结果表明,所提出的轮毂电机轴承故障诊断方法在7种转速工况下平均准确率均超过96%,具有高精度和稳定性。与遗传算法(GA)、粒子群优化算法(PSO)、GWO优化RF相比,提出的IGWO-RF模型在3种小样本训练集下的诊断准确率均超过90%,且准确率均明显高于其他3个对比算法,能够有效实现小样本条件下的轮毂电机轴承故障诊断。 展开更多
关键词 轮毂电机 轴承 合成少数类过采样技术(smote) 改进灰狼优化算法(IGWO) 随机森林(RF) 故障诊断
在线阅读 下载PDF
基于SMOTE的IFOX-1D-CNN变压器故障诊断模型 被引量:2
20
作者 王家军 景诗毅 +2 位作者 姚雨 陈焰 李波 《煤矿机械》 2024年第4期176-180,共5页
为了均衡油浸式变压器样本数据集,提高故障诊断精度,提出了基于合成少数类过采样技术(SMOTE)的改进狐狸(IFOX)算法优化一维卷积神经网络(1D-CNN)变压器故障诊断模型。首先,通过SMOTE均衡变压器样本数据集;其次,针对狐狸(FOX)算法种群初... 为了均衡油浸式变压器样本数据集,提高故障诊断精度,提出了基于合成少数类过采样技术(SMOTE)的改进狐狸(IFOX)算法优化一维卷积神经网络(1D-CNN)变压器故障诊断模型。首先,通过SMOTE均衡变压器样本数据集;其次,针对狐狸(FOX)算法种群初始化非均匀与寻优过程中易陷入局部最优解的缺陷,采用混沌映射、Levy飞行策略对其进行改进,并利用IFOX优化1D-CNN的学习率、卷积核大小、卷积核数量、全连接层神经元数量等超参数,建立IFOX-1D-CNN模型。实验结果表明,该模型在油浸式变压器故障诊断中具有较好的收敛性与较高的诊断精度。 展开更多
关键词 油浸式变压器 故障诊断 smote IFOX 1D-CNN
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部