阿里巴巴研究团队开发了一款名为 「EMO」 的 AI 框架,能通过输入人物照片和音频实现对口型,让照片中的人物开口说话,支持中英韩等语言。该框架基于英伟达的 Audio2Video 扩散模型,经过超过 250 小时的专业视频训练。研究团队已在 ArXiv 上发布模型工作原理,并在 GitHub 上开源项目。EMO 框架的工作过程分为特征提取和视频生成两个阶段,并融合了两种注意机制和时间模块以确保视频的自然流畅。实验表明,EMO 在生成说话视频和歌唱视频方面优于现有竞品。
更多体验
前往小程序
24 小时
资讯推送
进群体验