可让照片人物「开口说话」，阿里巴巴研究团队推出 AI 框架「EMO」

2024 年 3 月 1 日

阿里巴巴研究团队开发了一款名为「EMO」的 AI 框架，能通过输入人物照片和音频实现对口型，让照片中的人物开口说话，支持中英韩等语言。该框架基于英伟达的 Audio2Video 扩散模型，经过超过 250 小时的专业视频训练。研究团队已在 ArXiv 上发布模型工作原理，并在 GitHub 上开源项目。EMO 框架的工作过程分为特征提取和视频生成两个阶段，并融合了两种注意机制和时间模块以确保视频的自然流畅。实验表明，EMO 在生成说话视频和歌唱视频方面优于现有竞品。

可让照片人物「开口说话」，阿里巴巴推出 AI 框架「EMO」

搜狐科技

可让照片人物「开口说话」，阿里巴巴研究团队推出 AI 框架「EMO」

IT 之家

可让照片人物「开口说话」，阿里巴巴研究团队推出 AI 框架「EMO」

凤凰科技

2026-03-16

阿里巴巴据悉计划推出面向企业，基于千问模型的 AI 智能体

2025-10-23

阿里巴巴将开启夸克 AI 眼镜预售

2025-09-23

阿里团队发布全新终端 AI 智能体 iFlow CLI

2025-05-30

阿里巴巴开源自主搜索 AI 智能体 WebAgent

2025-04-18

阿里巴巴升级开源 AI 模型支持输入首尾帧生成视频

2025-02-28

荣耀与阿里在 AI 领域展开合作

2025-01-04

阿里 Qwen-Agent 框架上新，助力开发者打造全能 AI 智能体

2024-07-31

阿里巴巴将推出人工智能对话式采购引擎预计 9 月发布

2024-03-07

阿里巴巴推出高保真图生视频框架 AtomoVideo ，兼容多种文生图模型

2024-03-01

可让照片人物「开口说话」，阿里巴巴研究团队推出 AI 框架「EMO」

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。