Phantom

5个月前发布 2,770 0 0

Phantom是一款由字节跳动开源的 AI 视频生成框架，支持通过文本和图像输入生成主题一致、高保真的视频内容。采用跨模态对齐技术，确保人物身份、外观、动作在整个视频中保持统一，适用于虚拟人、电商广告、动画创作等多种场景

收录时间：

2025-07-06

打开网站手机查看

Phantom

打开网站

Phantom是什么？

Phantom是一款由字节跳动研究团队开发的开源 AI 视频生成框架，专注于实现主题一致性的视频生成（Subject-Consistent Video Generation）。它通过跨模态对齐（Cross-Modal Alignment）技术，将文本、图像和视频三种模态深度融合，生成在人物外观、身份、动作等方面高度一致的视频内容。

该项目已被 ICCV 2025 国际计算机视觉大会接收，代表其在学术和技术领域的前沿地位。

Phantom的主要功能特点

主题一致性建模（Subject Consistency）：保证视频中人物的身份、外观、动作在整个生成过程中保持一致。支持输入 1～4 张参考图像，精准还原人物细节与风格。
跨模态对齐（Cross-Modal Alignment）：融合文本、图像、视频三种模态，实现语义与视觉的深度一致。支持文本到视频（Text-to-Video）与图像到视频（Image-to-Video）双向生成。
高质量视频生成：支持 480P 和 720P 分辨率的视频输出，可生成 16fps 或 24fps 的自然流畅动画。适配横屏视频生成，稳定性更高。
模块化架构与开源支持：基于 Wan2.1 模型构建，支持 Phantom-Wan-1.3B 和 Phantom-Wan-14B 两个版本。提供完整的推理脚本、训练代码和模型权重，便于研究与二次开发。
多主体与复杂场景支持：可处理多人物、多物体、多角度的复杂视频生成任务。支持虚拟角色、动物、服饰等多种参考主体的融合生成。
多风格与多场景适配：支持写实风、卡通风、幻想风等多种视频风格。可生成室内、户外、自然、都市等多样化场景。

应用场景

数字人生成：打造虚拟主播、虚拟偶像等一致性数字形象
广告与短视频制作：根据图像和文本快速生成产品宣传视频
动画与影视原型：生成角色动画草稿，辅助剧本创作与视觉预览
教育与培训内容：生成教学视频、历史场景、科学实验演示
虚拟试穿与时尚展示：生成服装动态展示视频，适用于电商与时尚行业

项目地址

Phantom的GitHub地址：https://github.com/Phantom-video/Phantom
Phantom论文：https://arxiv.org/abs/2502.11079

一句话总结：Phantom 是一个专注于“人物一致性”的 AI 视频生成框架，融合文本、图像与视频三模态，适合研究者与创作者探索高质量、可控的视频生成技术。

数据统计

暂无评论

暂无评论...

Phantom

Phantom是什么？

Phantom的主要功能特点

应用场景

项目地址

数据统计

相关导航

Drawing Prompt

音疯

火山方舟大模型

豆绘商拍

QuickVideo

TOP.AI

SuperDesign

飞影数字人

暂无评论

标签云