期刊文献+
共找到454篇文章
< 1 2 23 >
每页显示 20 50 100
基于编辑约束的端到端越南语文本正则化方法
1
作者 蒋铭 王琳钦 +1 位作者 赖华 高盛祥 《计算机应用》 北大核心 2025年第2期362-370,共9页
文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语... 文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语的语言特点后,设计专门用于越南语的标注方法,以提高模型对上下文语义信息的建模能力。此外,针对神经网络模型容易产生不可恢复性错误的问题,提出一种编辑对齐算法以有效约束非标准词文本的范围,减小解码端的搜索空间,从而避免模型自身局限性所导致的非正则化文本预测错误。选取FastCorrect模型作为基准模型,将各类优化方法应用到基准模型中得到新模型。实验结果表明,所提模型在越南语不同优化方式的对比实验中的精准率相比使用无标注数据的基准模型提高了23.71个百分点,在同类中文实验中的精准率提高了26.24个百分点。可见,所提方法不仅在越南语上表现出色,而且在中文开源数据上也取得了显著的效果,验证了该方法在越南语之外的适用性。而且,与六类基线模型相比,使用所提方法的模型取得了最高的97.14%的精准率,在F1值上超过加权有限状态转换器(WFST)的两阶段方法2.29个百分点,证明了所提方法在文本正则化任务上的优越性。 展开更多
关键词 越南语 文本正则化 编辑对齐算法 语音合成 端到端
在线阅读 下载PDF
Audio-Text Multimodal Speech Recognition via Dual-Tower Architecture for Mandarin Air Traffic Control Communications
2
作者 Shuting Ge Jin Ren +3 位作者 Yihua Shi Yujun Zhang Shunzhi Yang Jinfeng Yang 《Computers, Materials & Continua》 SCIE EI 2024年第3期3215-3245,共31页
In air traffic control communications (ATCC), misunderstandings between pilots and controllers could result in fatal aviation accidents. Fortunately, advanced automatic speech recognition technology has emerged as a p... In air traffic control communications (ATCC), misunderstandings between pilots and controllers could result in fatal aviation accidents. Fortunately, advanced automatic speech recognition technology has emerged as a promising means of preventing miscommunications and enhancing aviation safety. However, most existing speech recognition methods merely incorporate external language models on the decoder side, leading to insufficient semantic alignment between speech and text modalities during the encoding phase. Furthermore, it is challenging to model acoustic context dependencies over long distances due to the longer speech sequences than text, especially for the extended ATCC data. To address these issues, we propose a speech-text multimodal dual-tower architecture for speech recognition. It employs cross-modal interactions to achieve close semantic alignment during the encoding stage and strengthen its capabilities in modeling auditory long-distance context dependencies. In addition, a two-stage training strategy is elaborately devised to derive semantics-aware acoustic representations effectively. The first stage focuses on pre-training the speech-text multimodal encoding module to enhance inter-modal semantic alignment and aural long-distance context dependencies. The second stage fine-tunes the entire network to bridge the input modality variation gap between the training and inference phases and boost generalization performance. Extensive experiments demonstrate the effectiveness of the proposed speech-text multimodal speech recognition method on the ATCC and AISHELL-1 datasets. It reduces the character error rate to 6.54% and 8.73%, respectively, and exhibits substantial performance gains of 28.76% and 23.82% compared with the best baseline model. The case studies indicate that the obtained semantics-aware acoustic representations aid in accurately recognizing terms with similar pronunciations but distinctive semantics. The research provides a novel modeling paradigm for semantics-aware speech recognition in air traffic control communications, which could contribute to the advancement of intelligent and efficient aviation safety management. 展开更多
关键词 speech-text multimodal automatic speech recognition semantic alignment air traffic control communications dual-tower architecture
在线阅读 下载PDF
基于文本超图构建的中文仇恨言论检测模型
3
作者 张顺香 王琰慧 +2 位作者 李冠憬 周渝皓 李嘉伟 《安徽理工大学学报(自然科学版)》 CAS 2024年第4期77-88,共12页
目的仇恨言论检测可以判定文本是否具有仇恨倾向,有助于筛除网络上的不当言论,维护网络环境的安全与秩序。为有效解决现有的仇恨言论检测方法依赖单一特征的图结构,难以捕捉文中由于对目标对象的隐性提及以及修辞手法的使用所带来的复... 目的仇恨言论检测可以判定文本是否具有仇恨倾向,有助于筛除网络上的不当言论,维护网络环境的安全与秩序。为有效解决现有的仇恨言论检测方法依赖单一特征的图结构,难以捕捉文中由于对目标对象的隐性提及以及修辞手法的使用所带来的复杂语义,从而导致仇恨言论检测准确率不高的问题。方法提出一种基于文本超图构建的中文仇恨言论检测模型,通过分析文本中的语序和语法信息,及利用大语言模型针对目标对象所获取的语义扩展信息来构建文本超图,从而提升仇恨言论检测的效果。首先,构建提示模板引导大语言模型识别文本中的目标对象,并对其进行知识补充作为文本的语义扩展信息;然后,构建文本超图,以挖掘文本中隐含的语义结构和关联关系,并通过超图注意力机制聚合超图信息得到全局特征;同时,利用roberta-wwm-ext对原始文本进行动态特征提取,得到文本特征;最后利用交叉注意力机制实现文本特征与全局特征的融合,并通过sigmoid计算仇恨倾向检测仇恨言论。结果在COLDataset数据集上进行实验,该方法在实验中取得了较好的效果,可以提高检测的精确率和F1值。结论实验结果表明,该模型能够有效地提升中文仇恨言论的检测效果。 展开更多
关键词 仇恨言论检测 文本超图 大语言模型 roberta-wwm-ext
在线阅读 下载PDF
基于层次化Conformer的语音合成
4
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 CONFORMER
在线阅读 下载PDF
主题统觉测验用于自杀风险识别——基于语音及文本特征的机器学习研究
5
作者 杨劲寅 吴雯 +1 位作者 李世佳 张亚 《心理科学》 CSSCI CSCD 北大核心 2024年第2期485-493,共9页
自杀风险识别是自杀预防的重要环节,但传统的自陈量表筛查存在虚报/漏报率高的局限。通过两步连续实验对主题统觉测验(TAT)进行的改编实现了基于TAT的小程序自助施测方案,并获取音频及文本数据用于机器学习建模,构建了针对自杀意念的自... 自杀风险识别是自杀预防的重要环节,但传统的自陈量表筛查存在虚报/漏报率高的局限。通过两步连续实验对主题统觉测验(TAT)进行的改编实现了基于TAT的小程序自助施测方案,并获取音频及文本数据用于机器学习建模,构建了针对自杀意念的自杀风险识别模型。结果发现,在测验耗时更短的情况下,该模型取得了与前人研究相比综合指数更优的模型效果;词频分析及关键词共线网络分析发现高自杀风险组被试在叙述文本中提及了更多与自杀、自伤相关的词汇以及主题,且使用了更多的排除词。经改编后的TAT小程序施测方案流程标准化且施测便捷,后续可收集更多高质量的样本以构建泛化性能更优的模型,应用于自杀风险识别的辅助评估中。 展开更多
关键词 自杀风险识别 主题统觉测验 机器学习 语音识别 文本分析
在线阅读 下载PDF
融合音素的缅甸语语音识别文本纠错
6
作者 陈璐 董凌 +3 位作者 王文君 王剑 余正涛 高盛祥 《计算机工程与科学》 CSCD 北大核心 2024年第6期1121-1127,共7页
缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法... 缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法。通过参数共享策略对转录文本及其音素进行联合建模,利用音素信息辅助检测并纠正缅甸语同音和空格错误。实验结果表明,本文所提方法相比基线方法ConvSeq2Seq,在缅甸语语音识别纠错任务中的F1值提升了85.97%,达到了79.15%。 展开更多
关键词 缅甸语 语音识别文本纠错 音素 共享参数 BERT
在线阅读 下载PDF
用于提升聋哑人语音表现力的语音合成技术
7
作者 马皓天 洪峰 +3 位作者 毛海全 郑立通 牟宏宇 许伟杰 《声学技术》 CSCD 北大核心 2024年第6期843-853,共11页
目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文... 目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文章首先分析了聋哑人的语音特征,并根据分析的结论,提出了能合成高自然度、高清晰度且带有聋哑人自身声音特色的模型算法以及相应的评估体系。文章根据不同残疾程度的聋哑人语音特征,提出了面向轻度残疾聋哑人的语音转换和合成方法以及面向重度残疾聋哑人的语音克隆方法。根据分析结果,轻度残疾聋哑人语音与健听人语音具有一定的共性,因此使用AdaIN-VC语音转换模型转换出带有聋哑人音色、高可懂度的语音,并将转换好的语音结合Tacotron2语音合成模型进行文本到语音的映射。考虑到重度残疾聋哑人语音的不稳定性,文章基于Zero-shot的SV2TTS语音克隆框架,使用了ECAPA-TDNN作为重度残疾聋哑人音色表征的说话人编码器,以获取准确的聋哑人表征。此外,文章还引入基于基频情感分类的风格迁移模块,对合成语音进行风格上的迁移。实验结果表明,在保证一定相似度的情况下,实验中两位轻残聋哑人的自然度主观意见评分别从原来的2.53和3.06提高至2.88和3.21,并且语音识别的错词率从100%分别降低至80.77%和76.91%。同样,文中提出的主观错词率也有明显的下降。而在语音克隆的实验中,模型合成的重残聋哑人语音与其自身音色的相似度主观相似度意见评分达到3,且聋哑人语音的自然度主观意见评分和情感表达能力均得到了提高。 展开更多
关键词 语音合成 语音转换 语音克隆 风格迁移
在线阅读 下载PDF
面向YSU-Ⅱ下肢康复机器人语音交互系统的指令文本校对模型
8
作者 仲美玉 吴培良 +2 位作者 窦燕 张晓丹 孔令富 《计算机集成制造系统》 EI CSCD 北大核心 2024年第10期3633-3642,共10页
针对YSU-Ⅱ下肢康复机器人语音交互系统存在指令误识的问题,构建了基于双向门控循环单元的Seq2Seq模型来检测并纠正指令文本中的错误字符,提出一种基于指令上下文和关键字的注意力机制(CK Attention),用于捕获指令文本的上下文语义和关... 针对YSU-Ⅱ下肢康复机器人语音交互系统存在指令误识的问题,构建了基于双向门控循环单元的Seq2Seq模型来检测并纠正指令文本中的错误字符,提出一种基于指令上下文和关键字的注意力机制(CK Attention),用于捕获指令文本的上下文语义和关键字信息,以提升模型的文本校对能力。面向康复机器人的训练任务自行建立了语料库,并采用5次5折交叉验证法在该语料库上开展了相关实验,以客观评估模型性能。实验结果表明,所建模型适用于指令文本校对任务,CK Attention机制能够有效提升模型的文本校对性能,其检错F_(1)值和纠错F_(1)值分别达到97.72%和93.89%,对常用指令文本的校对时长在0.156 s~0.391 s之间。 展开更多
关键词 文本校对 语音交互 Seq2Seq 双向门控循环单元 注意力机制
在线阅读 下载PDF
语音文本对齐技术构建蒙古语语音识别语料库研究
9
作者 甄兆博 张晖 《中央民族大学学报(自然科学版)》 2024年第1期12-19,共8页
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本... 目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本研究采用从这样的语料中提炼可供训练用的语料的技术路线,选择电视剧配音剧本和对应成片作为样例,将提炼工作看作是一个语音文本对齐问题。通过一系列自动化处理将剧本和对应的音频转换为适用于语音文本对齐处理的数据形式,利用迭代的对齐方法得到了语音文本对齐结果,利用这些结果生成了适用于蒙古语语音识别的逐句对齐的“语音—文本对”数据。通过对生成的数据进行抽样检查发现,生成的数据有较好的质量,与人工标注基本一致,节省了数据生产的成本。 展开更多
关键词 语音识别 蒙古语 生语料 语音文本对齐
在线阅读 下载PDF
基于元学习自适应的小样本语音合成
10
作者 吴郅昊 迟子秋 +1 位作者 肖婷 王喆 《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人... 在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 展开更多
关键词 小样本生成 语音合成 元学习 说话人适配 特征提取
在线阅读 下载PDF
基于深度学习融合音频与文本的双模态情感识别方法
11
作者 刘泽昊 董胡 +1 位作者 赵新民 钱盛友 《电脑与信息技术》 2024年第6期38-42,共5页
针对人机交互中情感识别的精度不高以及无法充分利用不同模态特征的问题,提出了一种基于深度学习融合音频和文本两种特征的语音情感识别方法。将语音和文本两种模态的情感识别模块在特征级别进行融合得到STEER模型。在公开数据集IEMOCA... 针对人机交互中情感识别的精度不高以及无法充分利用不同模态特征的问题,提出了一种基于深度学习融合音频和文本两种特征的语音情感识别方法。将语音和文本两种模态的情感识别模块在特征级别进行融合得到STEER模型。在公开数据集IEMOCAP上的实验结果表明,SPEECH模块采用HuBERT提取特征较语谱图法可提升情感识别率7.1%;TEXT模块所采用的BERT相较Word2Vec可提升情感识别率5.1%;SPEECH和TEXT模块进行不同策略融合后相较于两个独立的模块,情感识别精度均得到了明显提升,其中特征级别融合的STE-ER模型较最大置信度决策级融合的识别率提高了5.2%。 展开更多
关键词 情感识别 语音 文本 特征级别融合 深度学习
在线阅读 下载PDF
文字转语音技术在电视台新闻播报中的应用研究 被引量:1
12
作者 王文军 《电声技术》 2024年第6期65-67,共3页
文字转语音技术通过将文字内容转化为自然流畅的语音,使得新闻播报更具灵活性和高效性。基于此,介绍文字转语音技术的原理,分析其在电视台新闻播报中的应用,包括文字内容的准备与编辑、语音合成参数的优化、合成语音的检验与修正以及音... 文字转语音技术通过将文字内容转化为自然流畅的语音,使得新闻播报更具灵活性和高效性。基于此,介绍文字转语音技术的原理,分析其在电视台新闻播报中的应用,包括文字内容的准备与编辑、语音合成参数的优化、合成语音的检验与修正以及音视频匹配同步等多个方面,旨在为开展电视台新闻播报工作提供借鉴。 展开更多
关键词 文字转语音技术 电视台 新闻播报
在线阅读 下载PDF
基于LLM的家电智能交互控制系统研究
13
作者 李伟 贾奇伟 +1 位作者 劳春峰 宋玉军 《家电科技》 2024年第S01期125-129,共5页
家电智能化研究不断推进,当前智能控制系统的研究与应用实践中存在诸多影响用户体验的技术缺陷。针对智能语音交互控制的不足,研究并提出基于大语言模型(Large Language Model,LLM)的智能家电控制系统,内容重点聚焦于大语言模型在家电... 家电智能化研究不断推进,当前智能控制系统的研究与应用实践中存在诸多影响用户体验的技术缺陷。针对智能语音交互控制的不足,研究并提出基于大语言模型(Large Language Model,LLM)的智能家电控制系统,内容重点聚焦于大语言模型在家电领域垂直应用的训练方法与参数调优,并同步构建基于大模型的家电智能交互系统。创新性地引入语音情感识别(Speech Emotion Recognition,SER)和情感语音合成(Text to Speech,TTS),构建一整套拟人化应用的智能人机交互体系。该人机交互系统的应用,可进一步提升家电设备交互控制能力,更接近人的自然交互方式,缩短机器与人的距离,显著提升用户的设备使用体验。 展开更多
关键词 家电智能化 大语言模型 语音情感识别 情感语音合成
在线阅读 下载PDF
基于子音节表征的苗语语音合成方法
14
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
在线阅读 下载PDF
基于梯度归一化的端到端语音合成自适应损失权衡
15
作者 陈宽 陈涛 +2 位作者 尤玮珂 周琳娜 杨忠良 《网络空间安全科学学报》 2024年第1期72-82,共11页
语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型... 语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型,能够生成质量更高、听感更自然的语音。然而,现有模型依赖多个损失函数,暂时缺乏对其有效权衡的研究。因此,在现有模型损失函数的基础上,引入了梯度归一化自适应损失平衡优化方法,它根据模型不同损失函数的量级与不同子任务的训练速度来平衡各损失函数之间的权重,以验证该方法在语音合成任务中的适用性。在公开的中文语音合成数据集上评估了该方法合成语音的准确度与自然度,结果表明,采用此损失函数的模型在性能上得到了提升,证明了方法的有效性。 展开更多
关键词 文本转语音 端到端语音合成 多任务学习 多目标优化 梯度归一化
在线阅读 下载PDF
基于多教师知识蒸馏的多语种仇恨言论识别
16
作者 周子凡 李志 《中国人民警察大学学报》 2024年第10期31-38,共8页
网络社交媒体仇恨言论识别,是开源情报领域一项重要工作,针对多语种文本模型识别性能不佳、预训练模型依赖大量计算资源的问题,提出一种多教师知识蒸馏方案。首先利用多个大语言模型获取概率分布矩阵,然后依据综合后的通用相关性权重与... 网络社交媒体仇恨言论识别,是开源情报领域一项重要工作,针对多语种文本模型识别性能不佳、预训练模型依赖大量计算资源的问题,提出一种多教师知识蒸馏方案。首先利用多个大语言模型获取概率分布矩阵,然后依据综合后的通用相关性权重与语种优势权重生成综合软标签以指导学生模型训练。实验结果表明,经此知识蒸馏的学生模型,能够在保留各教师模型语种优势的同时大幅缩短计算时间,节约计算资源。 展开更多
关键词 仇恨言论识别 多语种文本 知识蒸馏 大语言模型
在线阅读 下载PDF
基于实时交互数字人技术的融合智能终端设计与实现
17
作者 王丁 刘阳桢 陈嘉 《广播与电视技术》 2024年第9期24-27,共4页
本文重点介绍深圳广播电影电视集团推出的“机器人雇员智能终端”项目,该项目运用互动数字人、语音智能引导、VR技术和沉浸式体验等概念,将语音识别、自然语言处理、文本到语音转换技术以及广电虚拟主持人、裸眼3D成像技术同智能终端进... 本文重点介绍深圳广播电影电视集团推出的“机器人雇员智能终端”项目,该项目运用互动数字人、语音智能引导、VR技术和沉浸式体验等概念,将语音识别、自然语言处理、文本到语音转换技术以及广电虚拟主持人、裸眼3D成像技术同智能终端进行深度融合,可以提升政务服务的智能化水平,为智慧城市建设提供新思路和实践路径。 展开更多
关键词 实时交互数字人 广电虚拟主持人 语音识别 自然语言处理 文本到语音转换 智能终端
在线阅读 下载PDF
基于混合架构神经网络的攻击性言论识别与分类研究
18
作者 李达 《移动信息》 2024年第6期248-250,共3页
为提高中文攻击性言论识别能力,文中设计了一种基于混合架构的神经网络模型。该模型首先采用BERT对输入的文本序列进行编码,得到文本中每个词语的动态词向量表示;然后应用BiLSTM进一步增强对文本语义的理解,并通过CNN来捕捉局部特定短... 为提高中文攻击性言论识别能力,文中设计了一种基于混合架构的神经网络模型。该模型首先采用BERT对输入的文本序列进行编码,得到文本中每个词语的动态词向量表示;然后应用BiLSTM进一步增强对文本语义的理解,并通过CNN来捕捉局部特定短语或词汇的关键语义特征。实验结果表明,相较于单一架构的神经网络模型,该模型能更好地应用于中文攻击性言论识别任务,具备更高的识别准确性。 展开更多
关键词 攻击性言论识别 文本分类 BERT BiLSTM CNN
在线阅读 下载PDF
TTS在车载乘客信息系统中的应用
19
作者 汤俊芹 《电声技术》 2024年第1期25-28,共4页
随着从文本到语音(Text To Speech,TTS)技术的发展,其语音效果已经可以达到真人播报效果。基于此,提出将TTS技术应用到车载乘客信息系统中,改变传统预录语音文件报站的方式,极大地提高语音播报的灵活性和可维护性。
关键词 从文本到语音(TTS) 乘客信息系统 语音质量
在线阅读 下载PDF
基于混合神经网络的社交媒体攻击性言论识别方法研究
20
作者 韩坤 潘宏鹏 刘忠轶 《中国人民公安大学学报(自然科学版)》 2024年第2期61-68,共8页
在社交媒体攻击性言论识别任务中,现有研究未能充分发挥不同神经网络的潜力和优势,导致识别准确度受限。针对上述问题,提出一种融合BERT预训练模型、双向长短期记忆网络(BiLSTM)、自注意力机制(SA)以及多尺度卷积神经网络(MCNN)的攻击... 在社交媒体攻击性言论识别任务中,现有研究未能充分发挥不同神经网络的潜力和优势,导致识别准确度受限。针对上述问题,提出一种融合BERT预训练模型、双向长短期记忆网络(BiLSTM)、自注意力机制(SA)以及多尺度卷积神经网络(MCNN)的攻击性言论识别模型(BERT-BiLSTM-SA-MCNN)。首先,利用BERT预训练模型对输入文本数据进行编码转换;其次,通过BiLSTM网络与自注意力机制捕获文本的全局语义特征;再次,借助多尺度卷积神经网络提取文本中的重要局部特征;最后,通过全连接层进行攻击性言论的分类识别。实验结果表明,BERT-BiLSTM-SA-MCNN模型在社交媒体攻击性言论识别任务中表现出较好的性能,准确率、精确率、召回率和F1值分别达到86.67%、84.20%、89.74%和86.79%,具有较高的准确性和泛化能力。 展开更多
关键词 攻击性言论识别 文本分类 混合神经网络 BERT 自注意力机制
在线阅读 下载PDF
上一页 1 2 23 下一页 到第
使用帮助 返回顶部