用于语音检索的三联体深度哈希方法

Triplet deep hashing method for speech retrieval

下载PDF

导出

摘要现有基于内容的语音检索中深度哈希方法对监督信息利用不足,生成的哈希码是次优的,而且检索精度和检索效率不高。针对以上问题,提出一种用于语音检索的三联体深度哈希方法。首先,将语谱图图像特征以三联体方式作为模型的输入来提取语音特征的有效信息;然后,提出注意力机制-残差网络(ARN)模型,即在残差网络(ResNet)的基础上嵌入空间注意力力机制,并通过聚集整个语谱图能量显著区域信息来提高显著区域表示;最后,引入新三联体交叉熵损失,将语谱图图像特征之间的分类信息和相似性映射到所学习的哈希码中,可在模型训练的同时实现最大的类可分性和最大的哈希码可分性。实验结果表明,所提方法生成的高效紧凑的二值哈希码使语音检索的查全率、查准率、F1分数均超过了98.5%。与单标签检索等方法相比,使用Log-Mel谱图作为特征的所提方法的平均运行时间缩短了19.0%~55.5%,能在减小计算量的同时,显著提高检索效率和精度。 The existing deep hashing methods of content-based speech retrieval do not make enough use of supervised information and have the suboptimal generated hash codes,low retrieval precision and low retrieval efficiency.To address the above problems,a triplet deep hashing method for speech retrieval was proposed.Firstly,the spectrogram image features were used as the input of the model in triplet manner to extract the effective information of the speech feature.Then,an Attentional mechanism-Residual Network(ARN)model was proposed,that is,the spatial attention mechanism was embedded on the basis of the ResNet(Residual Network),and the salient region representation was improved by aggregating the energy salient region information in the whole spectrogram.Finally,a novel triplet cross-entropy loss was introduced to map the classification information and similarity between spectrogram image features into the learned hash codes,thereby achieving the maximum class separability and maximal hash code discriminability during model training.Experimental results show that the efficient and compact binary hash codes generated by the proposed method has the recall,precision and F1 score of over 98.5%in speech retrieval.Compared with methods such as single-label retrieval method,the average running time of the proposed method using Log-Mel spectra as features is shorted by 19.0%to 55.5%.Therefore,this method can improve the retrieval efficiency and retrieval precision significantly while reducing the amount of computation.

作者张秋余温永旺 ZHANG Qiuyu;WEN Yongwang(School of Computer and Communication,Lanzhou University of Technology,Lanzhou Gansu 730050,China)

机构地区兰州理工大学计算机与通信学院

出处《计算机应用》 CSCD 北大核心 2023年第9期2910-2918,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(61862041)。

关键词语音检索三联体深度哈希注意力机制语谱图特征三联体交叉熵损失 speech retrieval triplet deep hashing attentional mechanism spectrogram feature triplet cross-entropy loss

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1万方,强浩鹏,雷光波.自监督深度离散哈希图像检索[J].中国图象图形学报,2021,26(11):2659-2669. 被引量：6
2黄羿博,王勇,张秋余,陈腾飞.基于混沌测量矩阵的生物哈希密文语音检索[J].华中科技大学学报（自然科学版）,2020,48(12):32-37. 被引量：5
3沈侃文,李文钧,岳克强.融合LPCC和MFCC的支持向量机OSAHS鼾声识别[J].杭州电子科技大学学报（自然科学版）,2020,40(6):1-5. 被引量：6

二级参考文献9

1郭春霞,裘雪红.基于MFCC的说话人识别系统[J].电子科技,2005,18(11):53-56. 被引量：19
2王彪.基于LPCC参数的语音识别系统[J].电子设计工程,2012,20(7):18-20. 被引量：7
3刘冶,潘炎,夏榕楷,刘荻,印鉴.FP-CNNH:一种基于深度卷积神经网络的快速图像哈希算法[J].计算机科学,2016,43(9):39-46. 被引量：17
4毋立芳,马玉琨,周鹏,郑伟诗.生物特征模板保护综述[J].仪器仪表学报,2016,37(11):2407-2420. 被引量：15
5李颖,韩斗升,赵永强.阻塞性睡眠呼吸暂停低通气综合征的相关诊疗概况[J].实用医药杂志,2017,34(9):843-846. 被引量：14
6马英,张凌飞,陈善继.一种基于宽带噪声的同态滤波语音增强算法分析[J].测控技术,2017,36(11):32-35. 被引量：4
7罗相林,秦雪佩,贾年.基于MFCC及其一阶差分特征的语音情感识别研究[J].现代计算机,2019,25(11):20-24. 被引量：6
8侯丽敏,施晓宇,童超,刘焕成.鼾声的基频分布与SAHS的关联性[J].声学技术,2019,38(2):176-181. 被引量：4
9王志明,张航.融合多层卷积神经网络特征的快速图像检索方法[J].计算机辅助设计与图形学学报,2019,31(8):1410-1416. 被引量：15

共引文献14

1张建新,吴悦,张强,魏小鹏.有监督相似性保持的深度二阶哈希方法[J].计算机科学,2022,49(S02):494-501.
2邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
3常景辉,张雪锋.混沌系统参数扰动方案及分析[J].计算机应用研究,2022,39(2):567-571. 被引量：6
4汪兰兰,蔡昌新.基于改进线性预测基音频率的语音情感识别系统[J].科学技术与工程,2022,22(26):11524-11532. 被引量：5
5郎文溪,孙涵.基于视觉一致性增强的细粒度图像检索[J].计算机技术与发展,2022,32(12):12-20. 被引量：1
6贺超,魏宏喜.结合Transformer与非对称学习策略的图像检索[J].中国图象图形学报,2023,28(2):535-544. 被引量：5
7邓鑫,杨超,王岩松,郭辉.基于VMD和ReliefF算法的汽车鸣笛声识别方法[J].电子设计工程,2023,31(10):54-58. 被引量：1
8牛育谦,杨艺媛.基于MIDI控制器的软音源插件自动控制系统研究[J].自动化与仪器仪表,2023(5):129-133. 被引量：2
9王冬霞,余佳琪,谭欢,杨文文,张志远.复杂场景下OSAHS鼾声快速检测及辅助诊断算法[J].天津职业技术师范大学学报,2023,33(2):1-6.
10许亦博,赵文义,李灵巧,杨辉华.基于乐高采样的自监督表示学习方法[J].桂林电子科技大学学报,2023,43(3):181-186.

1安风霞,杨玉,吴帅帅,吴家荣.印刷电路板换热器芯体尺寸多目标优化研究[J].电力科技与环保,2023,39(4):345-352. 被引量：4
2曹梦龙,赵文彬,陈志强.融合粒子群算法与改进灰狼算法的机器人路径规划[J].系统仿真学报,2023,35(8):1768-1775. 被引量：9
3汪杨凯,许悦,许涛,韩继东,李云越.云边协同框架下结合深度学习与随机森林的电力设备识别[J].微型电脑应用,2023,39(8):106-110. 被引量：1
4王茹珍,王庆国.基于Dynamo的族构件精准放置建模方法研究[J].土木建筑工程信息技术,2023,15(3):27-32. 被引量：1
5梁丹丹,杭明丽.言语产出中舌尖现象的年老化机制[J].语言文字应用,2023(2):100-111.
6陈少凡,韦程东,何国源,彭昱忠,徐辉.基于混合条件独立性测试的因果发现算法[J].南宁师范大学学报（自然科学版）,2023,40(2):50-60.
7党英楠,高瑞阳,宾光宇,吴水才,崔博翔,周著黄.超声背散射统计参数成像评价儿童脂肪肝的新方法[J].中国医疗设备,2023,38(9):17-24.

计算机应用

2023年第9期

浏览历史

内容加载中请稍等...

用于语音检索的三联体深度哈希方法

参考文献3

二级参考文献9

共引文献14

相关作者

相关机构

相关主题

浏览历史