基于多窗谱的心理声学语音增强被引量：12

Psychoacoustical enhancement of speech based on multitaper spectrum

导出

摘要与传统的周期谱图相比,多窗谱具有更小的估计方差。从含噪语音的多窗谱对噪声及噪声与含噪语音之比(NNSR)进行估计,用基于NNSR的幅度谱减实现用于计算人耳掩蔽阈值的预增强语音,用集成了人耳掩蔽阈值的心理声学加权规则实现最终的增强语音。考虑到多窗谱的特点对掩蔽偏移量进行了修正,修正后的重建语音,其客观测量指标修正巴克谱测度比修正前有一定的改进。再对心理声学加权规则作最大值小于1的限制,则输入信噪比越大(0 dB以上),分段信噪比和总体信噪比提高得越多。非正式试听表明重建语音失真较小,背景噪声大大降低,且没有音乐噪声。 Multitaper spectrum has lower variance than the traditional periodogram. The noise spectrum and the Noise to Noisy Signal Ratio （NNSR） are estimated from the multitaper spectrum of the noisy signal; the pre-enhanced speech for calculating the noise masking threshold is obtained by the spectral amplitude subtraction method, whose gain is a function of NNSR; the final enhanced speech is obtained by suppressing the Fourier spectrum of the noisy signal with the psychoacoustical weighting rule incorporating the noise masking threshold. Because of the low variance feature of the multitaper spectrum, a modified offset formula is proposed to calculate the noise masking threshold, thus the reconstructed speech with this modification has an improvement in MBSD （Modified Bark Spectral Distortion）. When a maximum limitation less than one to the psychoacoustical weighting rule is further proposed, the higher the input SNR （〉0 dB） is, the more improvement the segmental SNR and the overall SNR have. The informal listening tests show that there is little speech distortion for the enhanced speech processed by the proposed method, the background noise is reduced much and free of musical noise.

作者吴红卫吴镇扬赵力

机构地区东南大学信息科学与工程学院

出处《声学学报》 EI CSCD 北大核心 2007年第3期275-281,共7页 Acta Acustica

基金国家973项目(2002 CB312102) 国家自然科学基金(60272044 60472058) 苏州大学青年教师研究基金(Q3119610)资助项目

关键词语音增强心理声学窗掩蔽阈值背景噪声估计方差加权规则信噪比 Acoustic noise Distortion (waves) Psychophysiology Spectrum analysis

分类号 O428 [理学—声学]

引文网络
相关文献

参考文献16

1Thomson D J. Spectrum estimation and harmonic analysis. Proc. IEEE, 1982; 70(9): 1055--1096
2Hu Y, Loizou P C. Incorporating a psychoacoustical model in frequency domain speech enhancement. IEEE Signal Processing letters, 2004; 11(2): 270--273
3Cappe O. Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor. IEEE Trans. on Speech and Audio Processing, 1994; 2(2): 345-- 349
4刘海滨,吴镇扬,赵力,曾毓敏.非平稳环境下基于人耳听觉掩蔽特性的语音增强[J].信号处理,2003,19(4):303-307. 被引量：17
5陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
6卜凡亮,王为民,戴启军,陈砚圃.基于噪声被掩蔽概率的优化语音增强方法[J].电子与信息学报,2005,27(5):753-756. 被引量：16
7Virag N. Single channel speech enhancement based on masking properties of the human auditory system. IEEE Trans. Speech and Audio Processing, 1999; 7(2): 126--137
8Gustafsson S, Jax P, Vary P. A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics. In: Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, 1998:397--400
9Johnston J D. Transform coding of audio signal using perceptual noise criteria. IEEE J. Select. Areas Commun., 1988; 6(2): 314--323
10Manolakis D G, Lngle V K, Kogon S M. Statistical and adaptive signal processing. 北京:清华大学出版社, 2003: 246-255

二级参考文献48

1曹志刚,郑文涛.基于短时谱最小均方误差估计的语音增强和剩余噪声衰减[J].电子学报,1993,21(4):7-12. 被引量：7
2陆生礼,时龙兴,余崇智,魏荣爵.听觉模拟的语音增强方法[J].声学学报,1996,21(6):879-883. 被引量：4
3沈永欢梁在中等.实用数学手册[M].北京:科学出版社,1997..
4..http://spib.rice.edu/spib/select_noise.html.,.
5M. Berouti, R. Schwartz, J. Makhoul. Enhancement of speech corrupted by acoustic noise. Proc. IF.F.F. ICASSP,Washinggton, DC, Apr. 1979; 208-211.
6E Lockwood, J. Boudy. Experiments with a nonlinear spectral subtractor(NSS), hidden Markov models and projection for robust recognition in cars. Speech Communication. 1992; 11: 215-228.
7Boh Lim Sim, Yit Chow Tong etc.. A parametric formulation of the generalized spectral subtraction method. IEEE.Transaction on Speech and Audio Processing. 1998; 6(4):328-337.
8Nathalie Virag, Single channel speech enhancement based on masking properties of human auditory system. IEEE Transactions on Speech and Audio Processing. 1999; 7(2):126-137.
9I. Cohen, B. Berdugo. Speech enhancement for nonstationary noise environments. Signal Processing. 2001; 81:2403-2418.
10Y. Epharim, D. Malah. Speech enhancement using a minimum mean square log-spectral amplitude estimator.IEEE. Transactions on Acoustics. Speech, and Signal Processing. 1984; 32(6): 1109-1121.

共引文献66

1王晶,傅丰林,张运伟.语音增强算法综述[J].声学与电子工程,2005(1):22-26. 被引量：22
2何坤,李健,乔强,周激流.非平稳环境下基于小波变换的信号去噪[J].信号处理,2005,21(3):244-248. 被引量：6
3乔强,周激流,何坤,李健.基于小波变换的非平稳信号去噪[J].计算机应用研究,2005,22(8):161-163. 被引量：15
4孙暐,吴镇扬.多带抗噪声语音识别算法研究[J].信号处理,2006,22(4):559-563.
5姜占才,袁海良.基于时域与小波域相结合的语音增强技术[J].青海师范大学学报（自然科学版）,2006,22(3):20-22.
6施晓敏,顾济华,陶智,赵鹤鸣,张晓俊.基于听觉感知小波变换的电子耳蜗CIS语音信号处理[J].微电子学与计算机,2006,23(12):41-43. 被引量：3
7张晓俊,陶智,顾济华,赵鹤鸣,施晓敏.基于听觉感知和概率神经网络的语音识别模型[J].计算机工程与应用,2007,43(19):30-31.
8乔杰,赵力,邹采荣.利用人耳听觉特性的子带双声道回波抵消[J].应用科学学报,2007,25(4):331-336. 被引量：6
9施晓敏,顾济华,陶智,赵鹤鸣,张晓俊.基于听觉感知的电子耳蜗共振峰提取方案[J].计算机工程与应用,2007,43(29):232-234. 被引量：1
10周为,邱秀清,朱敬锋,马义德.一种基于噪声快速跟踪的语音增强算法[J].电声技术,2007,31(11):55-60. 被引量：1

同被引文献96

1李宏兵,赵文智,曹宏,姚逢昌,邵龙义.小波尺度域含气储层地震波衰减特征[J].地球物理学报,2004,47(5):892-898. 被引量：55
2严又生,宜明理,魏新,万文曼.井间地震速度和Q值联合层析成像及应用[J].石油地球物理勘探,2001,36(1):9-17. 被引量：28
3陈双籍,陈端石.基于心理声学参数的车内声品质偏好性评价[J].噪声与振动控制,2005,25(3):45-47. 被引量：36
4毛东兴,俞悟周,王佐民.声品质成对比较主观评价的数据检验及判据[J].声学学报,2005,30(5):468-472. 被引量：71
5焦风雷,刘克,毛东兴.基于非度量多维尺度分析的噪声声品质主观评价研究[J].声学学报,2005,30(6):521-529. 被引量：17
6林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：24
7王娜,陈克安.基于特性响度的心理声学特征在车辆目标识别中的应用[J].电声技术,2006,30(6):34-36. 被引量：4
8闫靓,陈克安,金义.低频纯音不愉悦感主观评价的实验研究[J].应用声学,2006,25(5):319-324. 被引量：10
9Wu Hongwei,Wu Zhenyang.SPEECH ENHANCEMENT USING CONSTRAINED SPECTRAL AMPLITUDE SUBTRACTION BASED ON NONCAUSAL A PRIORI SNR[J].Journal of Electronics(China),2006,23(6):937-942. 被引量：3
10董滨,赵庆卫,颜永红.基于共振峰模式的汉语普通话中韵母发音水平客观测试方法的研究[J].声学学报,2007,32(2):122-128. 被引量：16

引证文献12

1吴红卫,俞一彪,吴镇扬.基于Laplace-Gauss模型和简化相位判别的离散余弦变换域语音增强[J].声学学报,2008,33(3):244-251. 被引量：4
2武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术,2008,31(12):150-152. 被引量：20
3陈克安,马苗,张燕妮,王娜,闫靓.汉语语境下的车辆噪声听觉属性评价与分析[J].声学学报,2008,33(4):348-353. 被引量：14
4李晓伟,曾毓敏,汤小飞.基于多正弦窗谱估计的改进谱减法语音增强[J].信息化研究,2009,35(12):18-21. 被引量：1
5王云专,王珊,董相杰,于承业.多窗谱分析在Q值估算中的应用[J].地球物理学进展,2009,24(6):2156-2162. 被引量：6
6彭军,王忠,刘兴涛,胡建超.基于多窗谱相关加权语音增强[J].计算机仿真,2011,28(3):142-145. 被引量：7
7吴边,王忠,刘兴涛.强背景噪声下语音端点检测的算法研究[J].计算机工程与应用,2011,47(33):137-139. 被引量：6
8王玥,李平,崔杰.听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法[J].声学学报,2013,38(4):501-508. 被引量：5
9朱成名,翟江涛,王彪,戴跃伟.一种基于船舶辐射噪声信号改进Mel倒谱系数的目标识别方法[J].船舶工程,2017,39(1):91-95. 被引量：4
10黎煊,赵建,高云,雷明刚,刘望宏,龚永杰.基于深度信念网络的猪咳嗽声识别[J].农业机械学报,2018,49(3):179-186. 被引量：27

二级引证文献98

1沈明霞,陈金鑫,丁奇安,陈佳,刘龙申,孙玉文.生猪自动化养殖装备与技术研究进展与展望[J].农业机械学报,2022,53(12):1-19. 被引量：20
2郭亚齐,王鉴,韩星程,韩焱,王中正.基于CDAE-LMSAF的水下目标辐射信号增强[J].电子测量技术,2023,46(19):165-170.
3王玥,李平,崔杰.针对听力受损者的低复杂度感知估计降噪算法[J].声学技术,2013,32(S1):239-240.
4黄煜,陈克安,闫靓,吴群力.自适应分组成对比较法：原理及种子的选择[J].声学学报,2008,33(5):443-449. 被引量：10
5陈克安,王娜,王金昌.人耳辨识非语言声目标能力的实验研究[J].物理学报,2009,58(7):5075-5082. 被引量：11
6陈克安,陆晶,杨筱林,李冰.公园声景观感知属性维度数实验研究[J].噪声与振动控制,2009,29(4):132-137. 被引量：5
7王娜,陈克安,黄凰.水下噪声听觉属性的主观评价与分析[J].物理学报,2009,58(10):7330-7338. 被引量：12
8王娜,陈克安,黄凰.汉语语境下水下噪声听觉属性评价用语研究[J].噪声与振动控制,2009,29(5):170-175.
9曾毓敏,王鹏.基于双向搜索方法的最小值控制递归平均语音增强算法[J].声学学报,2010,35(1):81-87. 被引量：8
10王娜,陈克安.水下噪声音色属性回归模型及其在目标识别中的应用[J].物理学报,2010,59(4):2873-2881. 被引量：14

1彭军,王忠,刘兴涛,胡建超.基于多窗谱相关加权语音增强[J].计算机仿真,2011,28(3):142-145. 被引量：7
2陈文钢,田岚,姜晓庆,孙英明.一种噪声谱快速跟踪的语音增强方法[J].山东大学学报（工学版）,2006,36(4):26-28. 被引量：1
3李晓伟,曾毓敏,汤小飞.基于多正弦窗谱估计的改进谱减法语音增强[J].信息化研究,2009,35(12):18-21. 被引量：1
4查诚,杨平,潘平.小波包分解下的多窗谱估计语音增强算法[J].计算机工程,2012,38(5):291-292. 被引量：5
5武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术,2008,31(12):150-152. 被引量：20
6杨波,傅汝林,张知易.一种改进的客观音质评价方法[J].成都理工大学学报（自然科学版）,2004,31(1):108-110. 被引量：6
7杨波,傅汝林,张知易.利用前向掩蔽效应改进巴克谱失真测度[J].通信技术,2003,36(5):5-6.
8韩芳.基于河南方言的低信噪比下基音检测算法研究[J].电声技术,2016,40(4):51-54.
9韩芳,靳宗信.低信噪比下的端点检测算法研究[J].西北师范大学学报（自然科学版）,2016,52(5):55-59. 被引量：3
10李忠强,樊长江,王磊,张英杰,刘艳玲.BP网络在语音干扰效果客观评估方法优化中的应用[J].通信对抗,2007(1):25-28. 被引量：1

声学学报

2007年第3期

浏览历史

内容加载中请稍等...

基于多窗谱的心理声学语音增强被引量：12

参考文献16

二级参考文献48

共引文献66

同被引文献96

引证文献12

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

基于多窗谱的心理声学语音增强 被引量：12

参考文献16

二级参考文献48

共引文献66

同被引文献96

引证文献12

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

基于多窗谱的心理声学语音增强被引量：12