Apple 与中国人民大学联合推出统一音视频生成模型 VSSFlow
前天

Apple 三位研究人员与中国人民大学六位学者共同开发新型 AI 模型 VSSFlow,首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用 10 层架构,融合视频帧与文本转音素序列,通过流匹配技术重建音频。研究发现语音与音效联合训练有「互促提升」效应,团队还基于合成混合数据对模型微调以实现音画同步。实验显示,VSSFlow 在音效与语音任务上达业界领先水平,项目代码已开源,模型权重及推理演示将陆续开放,以推动视频条件音频生成技术发展。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟