HeyGem.ai

5个月前发布 2,400 0 0

HeyGem.ai是由硅基智能（GuijiAI）推出的一款开源数字人生成工具，它是HeyGen.ai的平替版。支持在 Windows 和 Linux 系统上完全本地部署，无需联网即可完成外貌与声音的克隆，并生成高质量、口型精确匹配的虚拟人口播视频。

收录时间：

2025-07-06

打开网站手机查看

HeyGem.ai

打开网站

HeyGem.ai是什么？

HeyGem.ai 是由硅基智能（GuijiAI）推出的一款开源数字人生成工具，它是HeyGen.ai的平替版。支持在 Windows 和 Linux 系统上完全本地部署，无需联网即可完成外貌与声音的克隆，并生成高质量、口型精确匹配的虚拟人口播视频。

核心功能

精准外貌与声音克隆：基于真人图像与语音样本，快速生成高度还原的数字人模型。
文本和语音驱动的虚拟形象：输入文本/语音即可让数字人自然发声，匹配口型与情感语调。
完全离线运行：保护隐私安全，适用于对数据敏感的场景。
4K 高清视频合成：支持 32fps 的高质量输出，适配复杂光影与侧脸场景。
多语言支持：支持中、英、日、韩、法、德、西、阿 8 种语言。
友好界面+一键部署：支持 Docker 快速安装，最低仅需 1080Ti 显卡即可运行。
开源可定制：支持模型替换、API 接入和参数控制，便于开发者深入对接与二次开发。

主要优势

完全离线作：无需互联网连接，有效保护用户隐私，允许用户在安全、独立的环境中创建，避免网络传输过程中潜在的数据泄露。
用户友好：干净直观的界面，即使没有技术背景的初学者也易于使用，快速掌握软件的使用方法，开始他们的数字人类创作之旅。
多模型支持：支持多种不同模型的导入，一键生成启动包管理，方便在不同模型、不同场合下的使用。

技术支持

语音克隆技术：使用人工智能等先进技术，根据给定的语音样本生成相似或相同的语音，涵盖语音的上下文、语调、速度和其他方面。
自动语音识别：将人的发音语汇内容变成电脑能接收进项（文本），即让电脑“听得懂”人说的话。
计算机视觉技术：用于视频合成以进行视觉处理，包括面部识别和嘴唇运动分析，使得虚拟人物身体动作和嘴型与语音及相应文字吻合。

HeyGem.ai使用方法（Windows & Linux 通用）

1.准备硬件与环境

操作系统：Windows 10（19042.1526+）或 Ubuntu 22.04
显卡要求：NVIDIA 独立显卡（最低 1080Ti，推荐 RTX 4070+）
内存：32GB 以上，磁盘空间 C 盘 ≥100GB，D 盘 ≥30GB
安装依赖：Node.js v18+、Docker Desktop、安装并更新显卡驱动 + WSL（如为 Windows）

2.下载并启动服务端

拉取镜像：

docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/heygem.ai

启动 Docker 服务：

cd /deploy
docker-compose up -d

> 如果显卡为 NVIDIA 50 系列，请使用 docker-compose-cuda12.yml 启动适配版本。

3.安装并启动客户端

Windows：下载安装包 HeyGem-x.x.x-setup.exe，安装完成后运行程序。
Linux：下载 AppImage 文件，运行：./HeyGem-x.x.x.AppImage –no-sandbox

4.克隆数字人模型

上传 1 张图片/视频，自动合成数字人模型（外观 + 语音），批量导入，随心切换。

5.输入内容并生成视频

选择文本或语音驱动方式：

文本驱动：输入文字，系统自动转语音并合成视频。
语音驱动：上传语音，AI 自动匹配嘴型生成视频。

支持 4K、32fps 视频输出，默认无水印，合成后可本地下载。

数据统计

暂无评论

暂无评论...

HeyGem.ai

HeyGem.ai是什么？

核心功能

主要优势

技术支持

HeyGem.ai使用方法（Windows & Linux 通用）

数据统计

相关导航

笔墨AI

PopAi

LibreChat

Video2X

抖音星绘

百度秒哒

百度AI伙伴

IP Adapter FaceID

暂无评论

标签云