基于视觉变换网络的音乐流派自动分类被引量：4

Automatic music genre classification based on vision transformer network

下载PDF

导出

摘要随着网络音乐产业的快速发展,构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力,深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题,提出了一种基于视觉变换(ViT)神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后,利用短时傅里叶变换(STFT)转化为尺寸统一的语谱图切片,实现音乐频域特征的转换。为了避免训练过拟合,通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练,从而实现音乐流派风格的自动分类。仿真结果表明,所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%,比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络(CNN)的音乐流派分类方法提升了1.00~5.00个百分点。 With the rapid development of the online music industry,the demand for building automatic music retrieval and classification systems is increasing.Correct annotation of music genres using computers is an important prerequisite to achieve accurate classification of music types and guarantee the performance of music recommendation systems.To address the problem that convolutional operations do not have the ability to extract global representations and deep convolutional neural networks are weak in global modeling of music genre data,an automatic music genre classification method based on Vision Transformer(ViT)neural network was proposed.After pre-processing the audio to be classified,a Short-Time Fourier Transform(STFT)was used to transform it into uniform-sized spectrogram slices to realize the conversion of music frequency domain features.In order to avoid training over-fitting,data enhancement was performed by adding white noise to the speech spectrum graph slice set.Then the generated spectrum slice set and its enhanced data set were used to train the constructed ViT neural network,so as to realize the automatic classification of music genre styles.Simulation results show that the test recognition accuracy of the constructed ViT network on the public GTZAN data set reaches 91.01%,which is 1.00-5.00 percentage points higher than those of traditional Convolutional Neural Network(CNN)based music genre classification methods such as AlexNet,AlexNet-enhanced and VGG16.

作者董安明刘宗银禹继国韩玉冰周酉 DONG Anming;LIU Zongyin;YU Jiguo;HAN Yubing;ZHOU You(Big Data Institute,Qilu University of Technology,Jinan Shandong 250353,China;School of Mathematics and Statistics,Qilu University of Technology,Jinan Shandong 250353,China;School of Computer Science and Technology,Qilu University of Technology,Jinan Shandong 250353,China;Shandong HiCon New Media Institute Company Limited,Jinan Shandong 250013,China)

机构地区齐鲁工业大学大数据研究院齐鲁工业大学数学与统计学院齐鲁工业大学计算机科学与技术学院山东海看新媒体研究院有限公司

出处《计算机应用》 CSCD 北大核心 2022年第S01期54-58,共5页 journal of Computer Applications

基金国家重点研发计划项目(2017YFB1400500) 山东省重点研发计划项目(2019JZZY020124) 山东省自然科学基金资助项目(ZR2017BF012) 山东省高等学校青年创新团队发展计划(2019KJN010) 齐鲁工业大学(山东省科学院)计算机科学与技术学科基础研究加强计划项目(2021JC02014) 齐鲁工业大学(山东省科学院)计算机科学与技术学科人才培养提升计划项目(2021PY05001)。

关键词视觉变换网络音乐流派特征转换语谱图深度学习数据增强 vision transformer network music genre feature transform spectrogram deep learning data enhancement

分类号 TP391.3 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程] J609.9 [艺术—音乐]

引文网络
相关文献

参考文献6

1庄严,于凤芹.结合节拍语义和MFCC声学特征的音乐流派分类[J].计算机工程与应用,2015,51(3):197-201. 被引量：7
2杜威,林浒,孙建伟,于波,姚恺丰.一种基于分层结构的音乐自动分类方法[J].小型微型计算机系统,2018,39(5):888-892. 被引量：7
3刘浏.语境化音乐流派识别[J].安徽大学学报（自然科学版）,2017,41(3):65-72. 被引量：3
4何丽,袁斌.利用长短期记忆网络进行音乐流派的分类[J].计算机技术与发展,2019,29(11):190-194. 被引量：5
5杜利婷,自彦丞,张静敏,艾霖嫔,周卫红.基于短时傅立叶变换特征提取和卷积神经网络的LAMOST恒星光谱分类研究[J].云南民族大学学报（自然科学版）,2020,29(5):480-485. 被引量：3
6刘万军,孟仁杰,曲海成,刘腊梅.基于增强AlexNet的音乐流派识别研究[J].智能系统学报,2020,15(4):750-757. 被引量：4

二级参考文献35

1Scaringella N,Zoia G,Mlynek D.Automatic genre classification of music content[J].IEEE Signal Processing Magzine,2006:133-141.
2Tsunoo E,Tzanetakis G,Ono N.Beyond timbral statistics:improving music classification using percussive patterns and bass lines[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):1003-1014.
3Tan H T,Zhu Y W,Rahardja S,et al.Rhythm analysis for personal and social music application using drum loop patterns[C]//IEEE International Conference on Multimedia and Expo,2009:1672-1675.
4Aggelos G,Vassilis K.Music tempo estimation and beat tracking by applying source separation and metrical relations[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing,2012:421-424.
5Huang Wendong,Wang Ye.A method for separating drum objects from polyphonic musical signals[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2005:307-310.
6Logan B.Mel frequency cepstral coefficients for music modeling[C]//International Society for Music Information Retrieval Conference,2000.
7Tzanetakis G.Genre.tar.gz[EB/OL].[2012-09-23].http://opihi.cs.uvic.ca/sound/genres.
8Correa D C,Saito J H,Costa L F.Musical genre beating to the rhythms of different drums[J].New Journal of Physics,2010,12:1-37.
9Marolt M.A mid-level representation for melody-based retrieval in audio collections[J].IEEE Transactions on Multimedia,2008,10(8):1617-1625.
10杨翠丽,郭昭辉,武港山.基于改进投票机制的音乐流派分类方法研究[J].计算机工程,2008,34(9):213-215. 被引量：5

共引文献21

1张智乐.基于听觉图像的音乐流派自动分类[J].黄河之声,2016(1):123-123.
2金山.基于声学特征的乐器研究[J].中小企业管理与科技,2017,1(29):120-121.
3刘元平.学科学理共识及西方乐派对培育中国乐派的意义[J].安徽师范大学学报（社会科学版）,2018,46(2):150-156. 被引量：2
4王伟东.声音的特征分类在新能源汽车主动发声设计中的应用[J].上海汽车,2020(3):6-9. 被引量：2
5张晓娜,赵晶晶.基于粒子群算法优化神经网络的电子音乐分类模型[J].现代电子技术,2020,43(9):101-104. 被引量：10
6陈浩,吴煜祺.基于物联网技术的音乐特征识别系统设计[J].现代电子技术,2020,43(10):43-45. 被引量：3
7易伶.多特征融合和机器学习算法的电子音乐分类模型[J].微型电脑应用,2020,36(9):117-119. 被引量：1
8孟令红.复杂噪声环境中的音乐分类和检测模型[J].微型电脑应用,2020,36(10):107-109.
9李欣,米红娟,吴雪君.音乐流派的多种机器学习模型分类比较[J].宜宾学院学报,2020,20(12):42-47. 被引量：3
10赵婕.改进神经网络的电子音乐辨识研究[J].微型电脑应用,2021,37(6):129-131. 被引量：1

同被引文献47

1严琦.基于语义的音乐信息多音符智能融合系统研究[J].自动化与仪器仪表,2019,0(6):158-161. 被引量：2
2叶西宁,王猛.音乐个性化推荐算法TFPMF的研究[J].系统仿真学报,2019,31(7):1397-1407. 被引量：6
3何丽,于洋.基于特征值嵌入的音乐播放列表推荐模型[J].计算机技术与发展,2019,29(11):144-148. 被引量：3
4陶丹丹,赵迪.机械手臂中心视觉自动校正方法研究[J].机床与液压,2019,47(20):55-59. 被引量：3
5张婷婷.基于关联规则数据挖掘技术在音乐分类中应用[J].现代电子技术,2020,43(1):99-101. 被引量：5
6黄璟.基于优化神经网络的音乐分类模型研究[J].现代电子技术,2020,43(3):96-99. 被引量：3
7田会方,潘宁静.纤维缠绕机芯模自动装卸机械臂轨迹仿真与分析[J].机床与液压,2020,48(3):52-57. 被引量：7
8吴亚文,赵家龙,侯金波,辜丽川,何屿彤,焦俊.基于改进压缩感知的生猪音频信号处理[J].江苏农业科学,2020,48(10):250-255. 被引量：5
9蔡聪聪,赵冬青,石明琛.基于遗传模拟退火FCM算法的BDS-3三频组合优化选取[J].测绘工程,2020,29(5):60-65. 被引量：2
10刘瑜.智能采摘机器人自动化系统研究——基于交互式视音频技术[J].农机化研究,2020,42(12):236-240. 被引量：7

引证文献4

1党焱.多模式虚拟音乐交互仪器感知技术研究[J].自动化与仪器仪表,2024(1):30-34. 被引量：1
2窦菲菲,陈娟.基于Bi-GRU网络和自注意力机制的自动作曲系统研究[J].自动化与仪器仪表,2024(6):66-69.
3张戈.基于机械臂的自动和声调音器研究[J].自动化与仪器仪表,2024(8):251-255.
4柴磊.基于深度学习的音频参量提取与分类技术研究[J].自动化与仪器仪表,2024(12):196-199.

二级引证文献1

1罗伊璇.基于深度学习的景区景观感知互动系统设计[J].中国新技术新产品,2024(10):36-38.

1程学珍,赵振国,刘兴军,李继明,赵猛.基于YOLOv4算法的煤矿井下粉尘检测方法[J].实验室研究与探索,2022,41(3):14-18. 被引量：2
2陈冬艳,彭锦佳,蒋广琪,付先平,米泽田.基于局部感知的车辆重识别算法[J].计算机工程与设计,2022,43(7):2048-2054.
3韩丁,王斌,王亮,侯越诚,田虎强,张世龙.基于改进VGGNet的羊个体疼痛识别方法[J].农业机械学报,2022,53(6):311-317. 被引量：5
4喜欢音乐,也要懂得享受音乐柏林之声音乐鉴赏会[J].家庭影院技术,2022(7):117-117.
5刘万军,王佳铭,曲海成,董利兵,曹欣宇.基于频谱空间域特征注意的音乐流派分类算法[J].计算机应用,2022,42(7):2072-2077.
6陈琳力.数字时代下舞台技术对音乐产业的影响[J].当代音乐,2022(7):193-195. 被引量：2
7刘夏鸣.一种基于迁移学习的视觉多任务模型探析[J].科学技术创新,2022(23):103-106. 被引量：2
8王清.基于随机森林的图书馆馆藏文献自动分类方法[J].自动化技术与应用,2022,41(7):51-53. 被引量：3
9巩泽春.浅析安徽花鼓灯各流派风格特点及其训练价值[J].中国民族博览,2022(10):55-58. 被引量：4
10赵曲川,池添雨.基于U-Net深度学习慢性萎缩性胃炎模型的应用与研究[J].胃肠病学和肝病学杂志,2022,31(6):656-661. 被引量：2

计算机应用

2022年第S01期

浏览历史

内容加载中请稍等...

基于视觉变换网络的音乐流派自动分类被引量：4

参考文献6

二级参考文献35

共引文献21

同被引文献47

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于视觉变换网络的音乐流派自动分类 被引量：4

参考文献6

二级参考文献35

共引文献21

同被引文献47

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于视觉变换网络的音乐流派自动分类被引量：4