Adobe Firefly Image2 Adobe Firefly Image 2 是Adobe推出的一款生成式人工智能模型,建立在Firefly图像模型的基础上,专为设计师和创作者提供更强大、更智能的图像生成能力。它通过简单的文字描述,可以生成高质量的图像、文字效果和鲜艳的调色板。 03,0900 AI大模型AI工具合集# Adobe Firefly Image 2# AI 图像生成# ai绘画一键生成绘画
Seed-TTS Seed-TTS是由字节跳动开发的一系列大规模自回归文本到语音(TTS)模型。它能够生成高度自然、与人类语音几乎无法区分的语音。这个模型特别擅长学习语音上下文、说话人相似度和自然度等方面的特征,从而产生质量极高的语音输出。 03,0900 AI大模型AI工具合集# Seed-TTS语音合成# 字节跳动文本到语音# 字节跳动语音大模型
知海图AI 知海图AI是知乎与面壁智能合作开发的中文大模型,于2023年4月13日开始内测。它的主要功能是对知乎热榜上的问题回答进行要素抽取、观点梳理和内容聚合,以便用户能够更快、更全面地了解知友们讨论的热点与焦点。知海图AI在特定场景中的表现与GPT-4相当,显示出强大的语言理解和内容总结能力。此外,知海图AI的发布也标志着知乎在大语言模型领域的进... 03,0750 AI大模型AI工具合集# 知乎AI应用# 知乎大模型# 知海图AI
腾讯混元DiT 腾讯混元DiT是一个基于Diffusion transformer的文本到图像生成模型,也是业内首个中文原生的DiT架构文生图开源模型。该模型具有中英文细粒度理解能力,能够与用户进行多轮对话,根据上下文生成并完善图像。 03,0650 AI大模型AI工具合集# AI广告创意工具# 中文原生Diffusion Transformer模型# 中文文生图模型
SDXL-Lightning SDXL-Lightning是一款由字节跳动开发的开源免费的文生图开放模型,能根据文本快速生成相应的高分辨率图像。该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快的文生图模型之一。 03,0550 AI大模型AI工具合集# SDXL-Lightning# SDXL-Lightning模型# 图像生成模型优化
文心千帆 文心千帆是百度智能云推出的产业级知识增强大模型,包括基础大模型、任务大模型、行业大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。它能够从海量数据和大规模知识中融合学习,效率更高,效果更好,具备知识增强、检索增强和对话增强的技术特色。 03,0350 AI大模型AI工具合集# 大模型平台# 文心千帆# 文心千帆大模型平台
DDColor DDColor是阿里达摩院研究的一种基于深度学习的图像上色模型,它可以自动将黑白或灰度图像着色,使图像更加生动逼真。 03,0250 AI大模型AI工具合集# ai怎么给图像上色# 图像着色工具# 灰度图像上色
讯飞开放平台 讯飞开放平台是一个领先的人工智能技术与生态服务平台,致力于为开发者与企业提供全面的智能交互能力。提供语音、图像、自然语言识别等核心交互技术,还拥有丰富的行业解决方案与SaaS产品,助力您轻松构建各类智能应用。 03,0050 AI大模型AI工具合集# android讯飞语音# 科大讯飞语音技术# 讯飞开放平台
天壤小白大模型 天壤小白是基于语言大模型的AI应用开放平台,无需代码开发,即可快速、灵活地搭建个性化的AI应用。通过提示词工程、语义搜索、向量数据库等各类AI工具组件,破解幻觉难题,为开发者和企业提供一站式的大模型应用服务。覆盖知识管理、市场销售、客户服务、内容生成、辅助决策、多语言翻译等多个场景。 03,0000 AI大模型AI工具合集# Embedding# SQL生成# 商业分析
浦语·灵笔2.5 浦语·灵笔2.5 是一款开源图文多模态大模型,支持图文创作、网页生成、视频理解与语音交互,具备超长上下文、多轮多图对话与高分辨率图像处理能力,广泛应用于内容创作、教育、智能助手等场景。 02,9800 AI大模型AI工具合集# 图文多模态大模型# 视频理解大模型
文心大模型 百度文心,产业级知识增强大模型,包含基础通用大模型及面向重点领域和重点任务的大模型,同时有丰富的工具与平台支撑高效便捷的应用开发,学习效率高,可解释性好,大幅降低AI开发与应用门槛. 02,9750 AI大模型AI工具合集# 文心# 文心大模型# 百度文心
星火大模型 讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型,可基于自然文本、语音的方式提供多场景文本生成、语言理解、知识问答、逻辑推理、数学解答、代码生成和多模态7大能力。 02,9700 AI大模型AI工具合集# 国内大模型公司# 星火大模型# 科大讯飞大语言模型
IMYAI智能助手 IMYAI智能助手是一款功能强大、简单易用的AI服务平台,集成了GPT4、Claude、Midjourney、Stable Diffusion等先进技术。无论您是需要写作灵感、绘画创意,还是寻求办公助理、生活规划,IMYAI都能提供专业、高效的解决方案。 02,9700 AI大模型AI工具合集# IMYAI智能助手# 多模态AI大语言模型# 多模态AI模型
RAGFlow RAGFlow是一款开源的检索增强生成(RAG)引擎,专为深入理解文档而设计。它为各类企业和个人提供简洁高效的RAG工作流程,与大语言模型(LLM)相结合,针对各种复杂格式的数据提供可靠的问答及有依据的引用。RAGFlow非常适合需要动态内容生成且依赖外部知识库的场景,如智能客服、文档生成和数据分析等,助力用户高效挖掘大量数据中的有价值信... 02,9700 AI大模型AI工具合集# 开源RAG引擎# 文档解析工具
V-Express V-Express是由南京大学和腾讯AI实验室共同开发的一项技术,旨在通过参考图像、音频和一系列V-Kps图像来生成说话的头像视频。这项技术可以根据不同的信号,如声音、姿势、图像参考等来控制视频内容,确保即使是弱信号也能有效地影响最终生成的视频,使视频生成更加逼真和多样化。 02,9550 AI大模型AI工具合集# AI视频合成# V-Express视频生成# 动态视频生成工具
SEED-Story SEED-Story是一个腾讯开源的基于大型语言模型(MLLM)的多模态长篇故事生成模型,它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事,SEED-Story都能提供高质量、多模态的内容,助力创意产业的发展。 02,9550 AI大模型AI工具合集# 叙事文本图片生成# 多模态故事生成# 多模态长篇故事生成模型
光语大模型 光语大模型是无限光年公司推出的一款结合大语言模型与符号推理的 AI 大模型,融合视觉与语言处理技术,拥有 10 亿视觉模型参数和 130 亿语言模型参数。该模型在金融、医疗等垂直领域表现出色,通过灰盒可信技术确保输出的稳定性和可靠性,有效解决幻觉问题,提升推理精度和可信度。 02,9550 AI大模型AI工具合集# 光语大模型
EMO EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动... 02,9450 AI大模型AI工具合集# AI肖像视频生成工具# Emote Portrait Alive# 单张照片生成视频
HoloDreamer HoloDreamer是一款文本驱动的3D场景生成框架,通过用户的文本描述生成沉浸式且视角一致的完整3D场景。它由风格化全景生成和增强型全景重建两个核心模块组成,该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreame... 02,9400 AI大模型AI工具合集# 3D场景生成# 3D场景生成工具# AI生成3D
Claude Claude是Anthropic公司发布的一款大型语言模型(LLM)。能够检测和回避潜在的陷阱,如逻辑错误、不恰当的内容、重复性和无聊等。具有高级推理、视觉分析、代码生成、多语言处理、多模态等能力,可以生成文本、翻译语言、编写不同类型的创意内容,并以信息丰富的方式回答问题。 02,9350 AI大模型AI工具合集# Claude.ai# LLM大语言模型# 大语言模型应用
CodeGemma CodeGemma是一个由Google基于Gemma模型开发的开源代码模型系列。它专为代码生成和理解而设计,提供了强大的代码自动补全和生成功能。CodeGemma支持多种编程语言,适用于软件开发、编程教育和跨语言开发项目。它的主要功能包括智能代码补全、代码生成、代码理解、多语言支持、代码优化建议以及错误检测与修正,旨在提高开发者的编码效率... 02,9300 AI大模型AI工具合集# AI代码助手# AI代码生成# AI代码生成工具
Face Adapter Face Adapter 是一种专门为预训练的扩散模型设计的适配器,主要用于面部重演和面部交换任务。它能够实现高精度和高保真度的面部编辑,提供精细的个体识别和属性控制功能。 02,9300 AI大模型AI工具合集# AI换脸模型# Face Adapter# 面部交换
ClotheDreamer ClotheDreamer 是一种基于 3D 高斯方法的工具,用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法,使得服装和人体模型可以分别优化。 02,9150 AI大模型AI工具合集# 3D 服装生成# 3D服装模型# ClotheDreamer
FireRedASR FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别(ASR)模型,支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果,并且在歌词识别方面表现出色。 02,9100 AI大模型AI工具合集# FireRedASR下载# 开源语音识别工具# 自动语音识别模型
ReHiFace-S ReHiFace-S是由硅基智能推出的开源实时高保真换脸算法,专注于实时视频中的高保真换脸技术。该算法支持零样本推理、超分辨率和色彩转换,适用于NVIDIA GTX 1080Ti及以上显卡。ReHiFace-S不仅提供高精度的面部特征和表情还原,还支持ONNX和实时摄像头模式,极大地简化了大规模数字人生成的过程。 02,8850 AI大模型AI工具合集# ReHiFace-S开源项目# 实时换脸算法# 硅基智能换脸
BuboGPT BuboGPT是字节跳动推出的一种先进的大型语言模型(LLM),它具有将文本、图像和音频等多模态输入进行整合的能力,并且具备将回复与视觉对象进行对接的独特功能,可以执行跨模态交互并做到对多模态的细粒度理解。这显示出BuboGPT在对齐或未对齐的任意图像音频数据理解方面有着出色的对话能力。 02,8800 AI大模型AI工具合集# BuboGPT# BuboGPT大型语言模型# 多模态理解与对话
Hibiki Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译(也称为同步翻译)的模型。与离线翻译不同,离线翻译需要等待源语句结束后才开始翻译,而 Hibiki 能够实时积累足够的上下文,以逐块生成正确的翻译。用户在讲话时,Hibiki 会在目标语言中生成自然的语音,并提供文本翻译。 02,8750 AI大模型AI工具合集# Hibiki# 实时语音翻译模型# 语音翻译模型
腾讯混元大模型 腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。 02,8700 AI大模型AI工具合集# AIGC智能创作# 多模态# 腾讯AIGC
PixelDance PixelDance是由字节跳动开发的一款高动态视频生成模型,它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令(针对视频片段的首尾帧)和文本指令,使得生成的视频不仅视觉上丰富,而且动作细节丰富,能够展现出高度的动态性。 02,8700 AI大模型AI工具合集# PixelDance# PixelDance视频生成模型# 图像指令视频生成
ReSyncer ReSyncer 是由清华大学、百度和南洋理工大学 S-Lab 实验室联合开发的多功能 AI 框架,专注于视频合成技术。它能够生成与音频高度同步的逼真口型视频,支持个性化调整、视频驱动口型同步、说话风格迁移和人脸交换。ReSyncer 在创建虚拟主持人、电影配音和多语言内容制作等领域具有广泛应用前景。 02,8650 AI大模型AI工具合集# ReSyncer# 人脸交换技术# 视频口型同步