Apple 与中国人民大学联合推出统一音视频生成模型 VSSFlow

2 月 10 日

Apple 三位研究人员与中国人民大学六位学者共同开发新型 AI 模型 VSSFlow，首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用 10 层架构，融合视频帧与文本转音素序列，通过流匹配技术重建音频。研究发现语音与音效联合训练有「互促提升」效应，团队还基于合成混合数据对模型微调以实现音画同步。实验显示，VSSFlow 在音效与语音任务上达业界领先水平，项目代码已开源，模型权重及推理演示将陆续开放，以推动视频条件音频生成技术发展。

苹果联合中国人民大学发布 VSSFlow 模型：无声视频 AI 同步生成音效与配音

IT 之家

苹果联合人大发布 VSSFlow 模型：无声视频 AI 同步生成音效与配音

凤凰科技

苹果联手中国研究团队开发统一音视频生成模型 VSSFlow

开源中国

展开全部报道

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。