JoyGen

5个月前发布 2,865 0 0

JoyGen是一个音频驱动的3D深度感知说话人脸视频生成框架。它通过音频驱动生成嘴唇运动和视觉外观合成，旨在实现精确的嘴唇-音频同步和高视觉质量。

收录时间：

2025-07-06

打开网站手机查看

AI大模型 AI工具合集 # 3D说话人脸生成 # JoyGen # 音频驱动3D说话人脸视频模型 # 音频驱动视频生成

JoyGen

JoyGen

JoyGen是由京东科技与香港大学合作开发的音频驱动 3D 说话人脸视频生成框架，采用一种新颖的两阶段框架。该技术通过音频输入驱动 3D 深度感知模型，实现精确的唇部与音频同步，以逼真模拟说话者的唇部动作和面部表情，生成高度真实的视频内容。JoyGen 主要应用于视频编辑和虚拟交互领域。

技术特点:

音频驱动唇部运动生成： JoyGen 使用 3D 重建模型和 audio2motion 模型，分别预测身份和表情系数，通过将音频特征与面部深度图结合，实现精确的唇部与音频同步。
视觉外观合成：提供高质量的视觉外观合成，确保视频的视觉效果和唇部运动的自然性。
数据集支持： JoyGen 使用了一个包含 130 小时高质量视频的中文说话人脸数据集进行训练。该数据集与开放的 HDTF（高分辨率深度图数据集）结合，支持中文和英文输入。
情感表达： JoyGen 还考虑了音频的情绪特征，能够在生成的动画中自然地表现出人物的情感变化，例如微笑或皱眉等，使生成的视频更加生动和真实。

如何使用JoyGen：

环境搭建：用户需创建一个特定的conda环境，并安装必要的依赖包，包括Nvdiffrast等特定库。
预训练模型下载：获取JoyGen的预训练模型，包括3D模型、音频到运动模型等，这些资源通常在项目GitHub页面上提供。
运行推理：通过执行特定的脚本和参数，用户可以将音频文件转换为带有逼真唇部同步的3D说话人脸视频。

应用场景：

视频编辑：用于编辑和生成高质量的说话人脸视频，适用于各种视频制作和编辑需求。
虚拟主播：为虚拟主播提供精确的嘴唇同步和自然的面部表情。
教育和培训：用于制作教育视频和培训资料，提升视频内容的互动性和生动性。

通过这些功能，JoyGen 在说话人脸视频生成和编辑方面展现了强大的能力。

GitHub：https://github.com/JOY-MM/JoyGen

JoyGen – 音频驱动的3D深度感知说话人脸视频生成框架

数据统计

相关导航

removal.ai

removal.ai是一个免费的在线智能抠图工具，它可以使用人工智能技术在几秒钟内从任何图片中移除背景。

元乙智创

元乙智创是浙江元乙智能科技有限公司倾力打造的数字人创作平台,致力于将前沿技术与视频创作完美结合。通过该平台,用户可以根据自己的需求,快速创建出栩栩如生的数字分身,用于文化传播、在线教育、电子商务、文旅体验等各种场景。

网易天音

网易天音是网易推出的专业AI音乐创作工具，集成了AI编曲、AI作词、AI一键写歌等多项功能。无论是音乐爱好者还是专业制作人，只需输入灵感，网易天音便能快速生成高质量的音乐作品。平台支持精细化调整，用户可以自由编辑歌词、旋律和编曲，打造独一无二的音乐作品。网易天音还提供虚拟歌姬歌声合成，助力创作更具表现力的歌曲。

TripoSR

TripoSR是一个由Stability AI和国内AI企业VAST合作开源的快速3D物体重建模型。它能在1秒内从单张2D图像快速生成高质量的3D模型。这项技术利用先进的人工智能算法，通过分析图片内容，自动创建出相应的三维模型。

Sassbook AI

Sassbook AI是一个人工智能应用，旨在通过使用最新的人工智能技术来自动化内容创作和内容自动化工作流程，从而显著加快这些流程并减少所需资源。它们提供了多种工具，包括AI写作软件、AI摘要生成器、AI改写工具和AI标题生成器，这些工具可以帮助用户更快地创建独特的文本内容，并以适合的风格进行创作。Sassbook AI的目标是通过自动化...

模板加

模板加，做更精彩的视频，是一款模板化在线视频制作工具，通过提供海量高清无水印视频模板帮助零基础小白用户一键生成影视级视频，满足电商主图视频、广告营销、企业招聘宣传、卡点相册、旅游VLOG、恋爱记录、萌宠晒照、创意玩法等全场景视频制作需求。

Soro

Soro是一款专为企业打造的 AI 议事录助手，旨在提升会议记录和信息管理的效率。它可以自动将会议中的语音转化为文字，并且智能提取和总结关键要点。

FlowVoice

FlowVoice 是一款专为 Apple Silicon Macs 设计的智能语音转录工具。通过语音输入，用户可以比键盘输入快 3 倍，将口语快速转换为结构化、简洁的文本。FlowVoice 提供智能听写和命令模式，帮助用户高效处理大量文本，适合作家、学生和商务人士。

暂无评论

暂无评论...