期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于自监督预训练模型和NWCE的口吃语音分类
1
作者 殷志鹏 徐新洲 《中北大学学报(自然科学版)》 2025年第1期19-26,共8页
口吃语音分类旨在利用语音信号对不同口吃类别进行分类识别,而现有相关研究没有充分考虑自监督预训练模型表示嵌入的时序特性,且只简单地表征了口吃语音数据的类别不平衡性。为此,本文提出一种基于自监督预训练模型和非线性加权交叉熵(N... 口吃语音分类旨在利用语音信号对不同口吃类别进行分类识别,而现有相关研究没有充分考虑自监督预训练模型表示嵌入的时序特性,且只简单地表征了口吃语音数据的类别不平衡性。为此,本文提出一种基于自监督预训练模型和非线性加权交叉熵(NWCE)损失的口吃语音分类方法。该方法首先利用自监督预训练模型提取副语言表示嵌入,然后通过带自注意力机制的双向长短期记忆网络模型,捕捉嵌入中显著的时序特征和上下文信息,最后利用非线性加权交叉熵损失来关注样本较少的口吃语音类别。在口吃语音分类数据集上的实验结果表明,本文方法通过学习语音中自监督预训练模型多层表示嵌入的时序信息,并且通过NWCE充分描述了各口吃类别数据间的关系,取得了比现有方法更好的口吃语音分类性能。 展开更多
关键词 计算副语言 口吃语音分类 自监督预训练模型 非线性加权交叉熵损失
在线阅读 下载PDF
融合多种参数高效微调技术的深度伪造检测方法
2
作者 张溢文 蔡满春 +2 位作者 陈咏豪 朱懿 姚利峰 《计算机科学与探索》 CSCD 北大核心 2024年第12期3335-3347,共13页
近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒... 近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒性差、跨数据集泛化性差以及模型训练开销大等问题。为解决上述问题,提出一种融合多种参数高效微调技术的深度伪造检测方法,使用以掩码图像建模(MIM)自监督方法预训练的视觉自注意力模型作为主干,使用克罗内克积改进的低秩自适应方法对预训练模型的自注意力模块参数进行微调,同时采用并行结构加入卷积适配器对图像局部纹理信息进行学习,以增强预训练模型在深度伪造检测任务中的适应能力,采用并行结构引入经典适配器对预训练模型的前馈网络微调以充分利用预训练阶段学习到的知识,使用多层感知机代替原预训练模型分类头实现深度伪造检测。在六个数据集上的实验结果表明,该模型在可训练参数仅有2×10^(7)的情况下,在六个主流数据集上实现了平均约0.996的帧水平AUC。在跨压缩率实验中,帧水平AUC的平均下降为0.135。在跨数据集泛化性实验中,帧水平AUC达到了平均0.765。 展开更多
关键词 深度伪造 视觉自注意力模型 自监督预训练模型 低秩自适应 参数高效微调
在线阅读 下载PDF
基于微信小程序的在线应急语言服务平台研究与设计 被引量:5
3
作者 张敏 覃凯莉 +1 位作者 陈彪 王湘玲 《西南民族大学学报(自然科学版)》 CAS 2023年第1期94-104,共11页
在新冠肺炎疫情防控中,我国应急语言服务暴露出的诸多问题已引起各界高度关注.究其原因,传统的应急语言服务过于依赖线下人工完成,不能满足应急语言服务对效率和多语言的需求.提出基于微信小程序和自监督预训练模型的应急语言服务在线... 在新冠肺炎疫情防控中,我国应急语言服务暴露出的诸多问题已引起各界高度关注.究其原因,传统的应急语言服务过于依赖线下人工完成,不能满足应急语言服务对效率和多语言的需求.提出基于微信小程序和自监督预训练模型的应急语言服务在线平台建设方案,可实现自动语音翻译、人工线上服务和线下服务三维一体的应急语言服务体系.对应急语言服务在线平台进行了详细的需求分析和功能模块设计,并对重要功能模块加以实现.所提方案不但可以提高应急语言服务效率,也可以建设应急语言服务志愿者库,有利于提升国家应急语言服务水平. 展开更多
关键词 应急语言服务 微信小程序 自监督预训练模型 在线平台
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部