
Hyper-SD
Hyper-SD 是字节跳动推出的一种先进图像生成框架,结合了轨迹分段一致性蒸馏(TSCD)和人类反馈学习(RLHF),显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD,用户可以在 1 到 8 步的推理过程中生成高质量的图像,极大地提高了生成速度和效率。
JoyGen是一个音频驱动的3D深度感知说话人脸视频生成框架。它通过音频驱动生成嘴唇运动和视觉外观合成,旨在实现精确的嘴唇-音频同步和高视觉质量。
JoyGen是由京东科技与香港大学合作开发的音频驱动 3D 说话人脸视频生成框架,采用一种新颖的两阶段框架。该技术通过音频输入驱动 3D 深度感知模型,实现精确的唇部与音频同步,以逼真模拟说话者的唇部动作和面部表情,生成高度真实的视频内容。JoyGen 主要应用于视频编辑和虚拟交互领域。
技术特点:
如何使用JoyGen:
应用场景:
通过这些功能,JoyGen 在说话人脸视频生成和编辑方面展现了强大的能力。
GitHub:https://github.com/JOY-MM/JoyGen
JoyGen – 音频驱动的3D深度感知说话人脸视频生成框架