EMO

EMO

EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动...
02,0900
PixelDance

PixelDance

PixelDance是由字节跳动开发的一款高动态视频生成模型,它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令(针对视频片段的首尾帧)和文本指令,使得生成的视频不仅视觉上丰富,而且动作细节丰富,能够展现出高度的动态性。
02,0500
HoloDreamer

HoloDreamer

HoloDreamer是一款文本驱动的3D场景生成框架,通过用户的文本描述生成沉浸式且视角一致的完整3D场景。它由风格化全景生成和增强型全景重建两个核心模块组成,该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreame...
02,0500
MuseV

MuseV

MuseV是一个由腾讯音乐娱乐旗下的天琴实验室推出的基于SD扩散模型的高保真虚拟人视频生成框架。支持文生视频、图生视频、视频生视频等多种生成方式,能够保持角色一致性,且不受视频长度限制。这意味着用户可以通过MuseV轻松地将文本、图像或现有视频转换成高质量的虚拟人视频,无需担心角色形象的不统一或视频时长的限制。
02,0150
BuboGPT

BuboGPT

BuboGPT是字节跳动推出的一种先进的大型语言模型(LLM),它具有将文本、图像和音频等多模态输入进行整合的能力,并且具备将回复与视觉对象进行对接的独特功能,可以执行跨模态交互并做到对多模态的细粒度理解。这显示出BuboGPT在对齐或未对齐的任意图像音频数据理解方面有着出色的对话能力。
01,9100
天壤小白大模型

天壤小白大模型

天壤小白是基于语言大模型的AI应用开放平台,无需代码开发,即可快速、灵活地搭建个性化的AI应用。通过提示词工程、语义搜索、向量数据库等各类AI工具组件,破解幻觉难题,为开发者和企业提供一站式的大模型应用服务。覆盖知识管理、市场销售、客户服务、内容生成、辅助决策、多语言翻译等多个场景。
01,8800
RAGFlow

RAGFlow

RAGFlow是一款开源的检索增强生成(RAG)引擎,专为深入理解文档而设计。它为各类企业和个人提供简洁高效的RAG工作流程,与大语言模型(LLM)相结合,针对各种复杂格式的数据提供可靠的问答及有依据的引用。RAGFlow非常适合需要动态内容生成且依赖外部知识库的场景,如智能客服、文档生成和数据分析等,助力用户高效挖掘大量数据中的有价值信...
01,8500