浦语·灵笔2.5 浦语·灵笔2.5 是一款开源图文多模态大模型,支持图文创作、网页生成、视频理解与语音交互,具备超长上下文、多轮多图对话与高分辨率图像处理能力,广泛应用于内容创作、教育、智能助手等场景。
Ai乌托邦 AI乌托邦是由由清华大学计算机系孵化的AIGC初创企业聆心智能研发,主要侧重开放域个性化对话。AI乌托邦为您提供了一款基于最新一代深度学习大模型的AI角色,只需点击他们的头像,您就可以与他们展开对话。
TangoFlux TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。
美图数字人开放平台 美图数字人开放平台是美图公司旗下的一个专注于3D数字人制作、AI人像驱动、AIGC内容制作以及AI人机交互的服务平台。该平台提供一系列的服务,旨在帮助客户打造品牌化的、独立的数字人IP,从而吸引更多的年轻客群。
DragGAN DragGAN是一种基于生成对抗网络(GAN)的人工智能模型,旨在实现照片主体的形状、神态、位置和大小的变化。具体来说,DragGAN可以对图像进行编辑和转换,使用户能够通过拖动操作来修改图像中的特定区域。例如,用户可以选择性地改变照片中的特定对象或区域,如人脸、物体等,并对其进行形状的变化、姿态的调整、位置的迁移和大小的调整。
Tarsier Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。