-
题名基于多尺度时序感知网络的课堂语音情感识别方法
- 1
-
-
作者
周菊香
刘金生
甘健侯
吴迪
李子杰
-
机构
民族教育信息化教育部重点实验室(云南师范大学)
云南省智慧教育重点实验室(云南师范大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第5期1636-1643,共8页
-
基金
国家自然科学基金资助项目(62107034)
云南省科技厅科技计划项目(202101AT070095)
云南省中老泰教育数字化国际联合研发中心项目(202203AP140006)。
-
文摘
语音情感识别近年来在多场景智能系统中得到了广泛应用,也为实现智慧课堂环境下的教学行为智能分析提供了可能。通过课堂语音情感识别技术可以自动识别课堂教学中教师和学生的情感状态,帮助教师了解自己的授课风格并及时掌握学生的课堂学习状态,从而达到精准施教的目的。针对课堂语音情感识别任务,首先,收集中小学的课堂实录教学视频,提取音频并进行人工切分和标注,构建了包含6类情感的中小学教学语音情感语料库;其次,基于时序卷积网络(TCN)和交叉门控机制(cross-gated mechanism)设计了双路时序卷积通道,以提取多尺度交叉融合特征;最后,采用动态权重融合策略调整不同尺度特征的贡献度,减少非重要特征对识别结果的干扰,进一步增强模型的表征和学习能力。实验结果表明,所提方法在多个公共数据集上优于TIM-Net(Temporal-aware bI-direction Multi-scaleNetwork)、GM-TCNet(Gated Multi-scale Temporal Convolutional Network)和CTL-MTNet(CapsNet and Transfer Learning-based Mixed Task Net)等先进模型,在真实课堂语音情感识别任务上未加权平均召回率(UAR)和加权平均召回率(WAR)分别达90.58%和90.45%。
-
关键词
语音情感识别
课堂语音
时序卷积网络
交叉门控卷积
梅尔频率倒谱系数
-
Keywords
speech emotion recognition
classroom speech
temporal convolutional network
cross-gated convolution
Mel-Frequency Cepstral Coefficient(MFCC)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-