基于时空图卷积网络的语音驱动个人风格手势生成方法被引量：1

Speech-driven Personal Style Gesture Generation Method Based on Spatio-Temporal Graph Convolutional Networks

下载PDF

导出

摘要人们在发言时的手势动作往往具有自己独特的个人风格,研究者们提出了基于生成式对抗网络的语音驱动个人风格手势生成的方法,然而所生成的动作不自然,存在时序上动作不连贯的问题。针对该问题,文中提出了一种基于时空图卷积网络的语音驱动个人风格手势生成的方法,引入以时空图卷积网络为基础的时序动态性判别器,构建手势动作关节点之间空间和时间上的结构关系,并通过时空图卷积网络捕获手势动作关节点在空间上的相关性和提取时序上的动态性特征,使所生成的手势动作保持时序上的连贯性,以更符合真实手势的行为和结构。在Ginosar等构建的语音手势数据集上进行实验验证,与相关方法相比,正确关键点百分比指标提高了2%~5%,所生成的手势动作更自然。 People’s gestures in speaking often have their own unique personal style.Researchers have proposed a speech-driven personal style gesture generation method based on generative adversarial networks.However,the generated actions are unnatural for temporal discontinuity.To solve this problem,this paper proposes a speech-driven personal style gesture generation method based on the spatio-temporal graph convolutional networks,which adds the temporal dynamic discriminator based on spatio-temporal graph convolutional network.The spatial and temporal structural relationships between gesture joint points is firstly constructed,and then the spatial correlation of gesture joint points is captured and the dynamic characteristics in time sequence are extracted through the spatio-temporal graph convolution network(STGCN),so that the generated gestures maintain the consistency in time sequenceand are more consistent with the behavior and structure of real gestures.The proposed method is verified on the speech and gesture dataset constructed by Ginosar et al.Compared with relevant methods,the percentage of correct keypoints improves by about 2%~5%,and the generated gestures are more natural.

作者张斌刘长红曾胜揭安全 ZHANG Bin;LIU Chang-hong;ZENG Sheng;JIE An-quan(School of Computer&Information Engineering,Jiangxi Normal University,Nanchang 330022,China)

机构地区江西师范大学

出处《计算机科学》 CSCD 北大核心 2022年第S02期604-608,共5页 Computer Science

基金国家自然科学基金(62067004,61662030)

关键词跨模态生成手势生成个人风格学习时空图卷积网络时序动态性 Cross-modal generation Gesture generation Personal style learning Spatio-Temporal graph convolutional networks Temporal dynamics

分类号 TP183 [自动化与计算机技术—控制理论与控制工程] TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王鑫,孟浩浩,姜小涛,陈胜勇,孙凌云.基于神经网络的角色运动合成研究进展[J].计算机科学,2019,46(9):22-27. 被引量：1
2信琴琴,陈志翔,冯晓霞,朱月秀.基于多线谱驱动的虚拟人手运动及约束控制[J].计算机科学,2014,41(1):126-129. 被引量：2
3郭丹,唐申庚,洪日昌,汪萌.手语识别、翻译与生成综述[J].计算机科学,2021,48(3):60-70. 被引量：12

二级参考文献26

1饶敏,周淑秋,宫可想.手部运动计算机仿真的实现[J].计算机技术与发展,2006,16(4):28-29. 被引量：3
2Shimada N. Hand gesture estimation and model refinement using monocular camera-Ambiguity limitation by inequality constraints[A].Nara,Japan,1998.268-274.
3Davis J,Shah M. Towards 3D Gesture Recogniton[J].International Journal of Pattern and Artificial Intelligence,1999,(03):381-393.
4Shotton J,Fitzgibbon A,Cook M. Real-time human pose recognition in parts from single depth images[A].2011.
5Girshick R,Shotton J,Kohli P. Efficient regression of general-activity human poses from depth images[A].2011.
6Keskin C,Klrac F,Kara Y E. Real Time Hand Pose Estimation Using Depth Sensors[A].2013.119-137.
7van der Hulst F P J,Sch(a)tzle S,Preusche C. A Functional Anatomy Based Kinematic Human Hand Model with Simple Size Adaptation[A].2012.5123-5129.
8文乐军.人体解剖学[M]北京:北京医科大学出版社,200483-101.
9Claudia,Nolker,Ritter H. Parametrized SOMs for hand posture reconstruction[A].2000.139-144.
10Lin J,Wu Ying,Huang T S. Modeling the Constraints of Human Hand Motion[A].Austin,TX,2000.161-170.

共引文献12

1邓佳乐,彭钰洁,邓成.基于游戏引擎的人工智能手语电视播报系统设计和实现[J].广播电视信息,2022,29(S01):109-112. 被引量：1
2王风丽,陈志翔,阮兢,何胜敏.示指关节活动空间及其应用[J].中国康复理论与实践,2021,27(11):1253-1259.
3刘继兴,周昕,张帅峰,曾令辉,段珍灵,沈顺权.基于人工智能的手语翻译系统实现[J].科技创新与应用,2022,12(23):41-43. 被引量：3
4周乐员,张剑华,袁甜甜,陈胜勇.多层注意力机制融合的序列到序列中国连续手语识别和翻译[J].计算机科学,2022,49(9):155-161. 被引量：3
5李世炜,侯霞,汪良果.融合机器翻译与复述生成的手语文本生成方法[J].北京信息科技大学学报（自然科学版）,2023,38(2):75-81. 被引量：1
6刘欣易,孔家伟,陈果然,孟祥佳.基于VGG-Nets算法手势识别设计与实现[J].物联网技术,2023,13(5):35-38. 被引量：1
7唐申庚,修雪玉,郭丹,洪日昌.基于智能生成技术的手语数字人发展现状与趋势[J].人工智能,2023(4):20-31.
8陶唐飞,刘天宇.基于手语表达内容与表达特征的手语识别技术综述[J].电子与信息学报,2023,45(10):3439-3457. 被引量：2
9余江,邓佳乐,郑伟峰.人工智能手语电视播报系统的安全性分析[J].广播电视信息,2024,31(5):55-58.
10邓佳乐,余江,郑伟峰.人工智能手语电视播报系统的研究与实现[J].广播与电视技术,2024,51(5):28-31.

同被引文献15

1马昊,李淑琴,丁濛.基于深度学习的人体动作草图到三维骨骼模型重建方法的研究[J].计算机应用研究,2020,37(6):1867-1870. 被引量：5
2刘玉林.视频识别技术在作业现场违章行为预测方面的应用[J].安全、健康和环境,2021,21(5):22-26. 被引量：7
3李炫烨,郝兴伟,贾金公,周元峰.结合多注意力机制与时空图卷积网络的人体动作识别方法[J].计算机辅助设计与图形学学报,2021,33(7):1055-1063. 被引量：19
4叶松涛,周扬正,范红杰,陈正雷.融合因果关系和时空图卷积网络的人体动作识别[J].计算机科学,2021,48(S02):130-135. 被引量：4
5杨志芳,李乾.基于骨骼关键点的异常行为识别及异构平台部署[J].自动化与仪表,2021,36(11):49-52. 被引量：4
6陈莹,龚苏明.改进通道注意力机制下的人体行为识别网络[J].电子与信息学报,2021,43(12):3538-3545. 被引量：16
7刘嘉宇,陈平.基于关键帧定位和时空图卷积的异常行为识别[J].机械与电子,2022,40(1):48-53. 被引量：7
8马敬奇,雷欢,陈敏翼.基于AlphaPose优化模型的老人跌倒行为检测算法[J].计算机应用,2022,42(1):294-301. 被引量：25
9张晓平,纪佳慧,王力,何忠贺,刘世达.基于视频的人体异常行为识别与检测方法综述[J].控制与决策,2022,37(1):14-27. 被引量：37
10喻宏伟,周东波,徐雯慧,余雅滢,王小梅,涂悦.基于多片段语义时空图卷积网络的大学生校园日常行为预测[J].清华大学学报（自然科学版）,2022,62(1):105-115. 被引量：9

引证文献1

1刘惠华,王天师.基于深度学习的作业现场关键区域行为识别研究[J].微型电脑应用,2025,41(1):221-225.

1席鑫.高频彩超对浆细胞性乳腺炎与肉芽肿性乳腺炎鉴别诊断的价值[J].临床医学进展,2022,12(12):11037-11044. 被引量：2

计算机科学

2022年第S02期

浏览历史

内容加载中请稍等...

基于时空图卷积网络的语音驱动个人风格手势生成方法被引量：1

参考文献3

二级参考文献26

共引文献12

同被引文献15

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于时空图卷积网络的语音驱动个人风格手势生成方法 被引量：1

参考文献3

二级参考文献26

共引文献12

同被引文献15

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于时空图卷积网络的语音驱动个人风格手势生成方法被引量：1