Apple 三位研究人员与中国人民大学六位学者共同开发新型 AI 模型 VSSFlow,首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用 10 层架构,融合视频帧与文本转音素序列,通过流匹配技术重建音频。研究发现语音与音效联合训练有「互促提升」效应,团队还基于合成混合数据对模型微调以实现音画同步。实验显示,VSSFlow 在音效与语音任务上达业界领先水平,项目代码已开源,模型权重及推理演示将陆续开放,以推动视频条件音频生成技术发展。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验