有没有想过,如果一个人只发出声音,我们能不能“看到”他?比如,听别人说话,是不是能想象出他长什么样、在做什么动作?Meta AI(原Facebook AI Research-FAIR)团队开发了一项新技术, 从声音中“生成”出一个看起来像真的“人” —–Audio2PhotoReal,通过音频驱动生成全身逼真的虚拟人物对话,包括动作、表情和多人对话等,可广泛应用于虚拟现实、影视制作等领域。项目遵守 CC-NC 4.0 International licensek协议。
这项技术不是靠“看”视频,而是通过深度学习,从声音中提取信息,再生成图像。具体来说,它做了几件事:
听声音:系统会分析语音中的语气、语调、节奏等信息。
生成表情:根据语音,生成一个“看起来像真的”人的面部表情。
生成动作:根据语音,生成一个和说话人一致的身体动作。
合成全息:把表情和动作结合起来,生成一个看起来像真的“人”。
技术特色
1. 多模态融合
该系统通过融合音频、面部表情和身体姿态等多模态数据,实现了对人物形象的全面重建。具体而言,系统包括以下四个核心模型:
面部扩散模型:根据音频生成面部表情代码
姿态扩散模型:根据音频和引导姿态生成身体关节角度
引导VQ模型:通过1帧/秒的音频生成姿态编码
VQ编码器-解码器模型:对连续姿态空间进行向量化量化
2. 高精度重建
系统能够生成高质量的3D人体模型,其重建精度达到毫米级。通过PyTorch框架实现,支持CUDA 11.7和GCC 9.0的兼容性,确保了在高性能计算设备上的高效运行。
3. 可视化能力
项目提供了完整的渲染流程,用户可以通过调用渲染API生成全息视频。系统支持将生成的面部表情代码和姿态代码组合,最终输出具有真实感的全息人物形象。
源代码:https://github.com/facebookresearch/audio2photoreal
看得透又看得远者prevail. ppt.cc/flUmLx ppt.cc/fqtgqx ppt.cc/fZsXUx ppt.cc/fhWnZx ppt.cc/fnrkVx ppt.cc/f2CBVx
ppt.cc/fKlBax ppt.cc/fwlgFx ppt.cc/fVjECx ppt.cc/fEnHsx ppt.cc/fRZTnx ppt.cc/fSZ3cx ppt.cc/fLOuCx ppt.cc/fE9Nux ppt.cc/fL5Kyx ppt.cc/f71Yqx tecmint.com linuxcool.com linux.die.net linux.it.net.cn ostechnix.com unix.com ubuntugeek.com runoob.com man.linuxde.net ppt.cc/fwpCex ppt.cc/fxcLIx ppt.cc/foX6Ux linuxprobe.com linuxtechi.com howtoforge.com linuxstory.org systutorials.com ghacks.net linuxopsys.com ppt.cc/ffAGfx ppt.cc/fJbezx ppt.cc/fNIQDx ppt.cc/fCSllx ppt.cc/fybDVx ppt.cc/fIMQxx
Total Pageviews
Wednesday, 21 January 2026
从声音到全息人-Audio2PhotoReal
Labels:
ai
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment