HeyGem.ai

5天前发布 315 0 0

HeyGem.ai是由硅基智能(GuijiAI)推出 的一款开源数字人生成工具,它是HeyGen.ai的平替版。支持在 Windows 和 Linux 系统上完全本地部署,无需联网即可完成外貌与声音的克隆,并生成高质量、口型精确匹配的虚拟人口播视频。

收录时间:
2025-07-06
HeyGem.aiHeyGem.ai

HeyGem.ai是什么?

HeyGem.ai 是由硅基智能(GuijiAI)推出 的一款开源数字人生成工具,它是HeyGen.ai的平替版。支持在 Windows 和 Linux 系统上完全本地部署,无需联网即可完成外貌与声音的克隆,并生成高质量、口型精确匹配的虚拟人口播视频。

核心功能

  • 精准外貌与声音克隆:基于真人图像与语音样本,快速生成高度还原的数字人模型。
  • 文本和语音驱动的虚拟形象:输入文本/语音即可让数字人自然发声,匹配口型与情感语调。
  • 完全离线运行:保护隐私安全,适用于对数据敏感的场景。
  • 4K 高清视频合成:支持 32fps 的高质量输出,适配复杂光影与侧脸场景。
  • 多语言支持:支持中、英、日、韩、法、德、西、阿 8 种语言。
  • 友好界面+一键部署:支持 Docker 快速安装,最低仅需 1080Ti 显卡即可运行。
  • 开源可定制:支持模型替换、API 接入和参数控制,便于开发者深入对接与二次开发。

主要优势

  • 完全离线作:无需互联网连接,有效保护用户隐私,允许用户在安全、独立的环境中创建,避免网络传输过程中潜在的数据泄露。
  • 用户友好:干净直观的界面,即使没有技术背景的初学者也易于使用,快速掌握软件的使用方法,开始他们的数字人类创作之旅。
  • 多模型支持:支持多种不同模型的导入,一键生成启动包管理,方便在不同模型、不同场合下的使用。

技术支持

  • 语音克隆技术:使用人工智能等先进技术,根据给定的语音样本生成相似或相同的语音,涵盖语音的上下文、语调、速度和其他方面。
  • 自动语音识别:将人的发音语汇内容变成电脑能接收进项(文本),即让电脑“听得懂”人说的话。
  • 计算机视觉技术:用于视频合成以进行视觉处理,包括面部识别和嘴唇运动分析,使得虚拟人物身体动作和嘴型与语音及相应文字吻合。 

HeyGem.ai使用方法(Windows & Linux 通用)

1.准备硬件与环境

  • 操作系统:Windows 10(19042.1526+)或 Ubuntu 22.04
  • 显卡要求:NVIDIA 独立显卡(最低 1080Ti,推荐 RTX 4070+)
  • 内存:32GB 以上,磁盘空间 C 盘 ≥100GB,D 盘 ≥30GB
  • 安装依赖:Node.js v18+、Docker Desktop、安装并更新显卡驱动 + WSL(如为 Windows)

2.下载并启动服务端

拉取镜像:

docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/heygem.ai

启动 Docker 服务:

cd /deploy
docker-compose up -d

> 如果显卡为 NVIDIA 50 系列,请使用 docker-compose-cuda12.yml 启动适配版本。

3.安装并启动客户端

  • Windows:下载安装包 HeyGem-x.x.x-setup.exe,安装完成后运行程序。
  • Linux:下载 AppImage 文件,运行:./HeyGem-x.x.x.AppImage –no-sandbox

4.克隆数字人模型

上传 1 张图片/视频,自动合成数字人模型(外观 + 语音),批量导入,随心切换。

5.输入内容并生成视频

选择文本或语音驱动方式:

  • 文本驱动:输入文字,系统自动转语音并合成视频。
  • 语音驱动:上传语音,AI 自动匹配嘴型生成视频。

支持 4K、32fps 视频输出,默认无水印,合成后可本地下载。

数据统计

相关导航

暂无评论

none
暂无评论...