AI大模型

共 157 篇网址

Animate Anyone

DreaMoving是一种基于扩散模型打造的可控视频生成框架，通过图文就能制作高质量人类跳舞视频。用户只需上传一张人像，以及一段提示词，就能生成对应的视频，而且改变提示词，生成的人物的背景和身上的衣服也会跟着变化。简单来说就是，一张图、一句话就能让任何人或角色在任何场景里跳舞。

02,6300

AI大模型 AI工具合集 # AI动画生成工具 # AI驱动的角色动画 # Animate Anyone

CrewAI

CrewAI是一个创新的框架，专为角色扮演中的AI代理提供自动化设置。它通过促进AI代理之间的合作，使得这些代理能够共同解决复杂问题。CrewAI的核心特征包括角色定制代理、自动任务委派、任务管理灵活性和流程导向。它既可以使用OpenAI的API，也可以通过Ollama使用本地的大模型来运行程序。

02,6300

AI大模型 AI工具合集 # AI自动化代理 # CrewAI # 多角色agent框架

星流图像大模型

星流图像大模型由 LiblibAI 发布的一款自研图像大模型，名为 Star-3 Alpha。该模型基于业界领先的 F.1 基础算法架构训练而成，辅以全球最大的 LORA 增强模型库及不断进化的 AI 图像控制能力。在图像精准度、色彩表现力、美学捕捉的细腻表达等方面实现了显著的飞跃，成为新的业界标杆。

02,6300

AI大模型 AI工具合集 # AI去除背景 # AI生图 # Star-3 Alpha

光语金帆

光语金帆是由无限光年公司推出的金融大模型，结合了顶尖的人工智能技术和人才资源，旨在构建超越客户期望的人工智能生成内容（AIGC）产品组合，推动金融行业生产力和用户交互体验的全面提升，实现金融服务的智能化、公平化和普惠化。

02,6100

AI大模型 AI工具合集 # AI财报点评 # 光语金帆 # 智能投研工具

HelloMeme

HelloMeme 是一个专注于生成高保真图像和视频内容的开源AI 项目，特别是表情克隆技术。通过采用最新的 SD1.5 架构和空间编织注意力扩散模型，HelloMeme 可以轻松将一张图片的表情迁移到另一张图片或视频上，生成效果超越同类工具如 Liveportrait。HelloMeme 支持 ComfyUI 界面操作，非常适用于 AI...

02,5950

AI大模型 AI工具合集 # HelloMeme # HelloMeme AI # 表情克隆技术

Loopy AI

Loopy是一个端到端音频驱动的视频生成模型，专注于生成逼真的头像动画。利用先进的 AI 技术和时间模块设计，Loopy 能够从音频中提取自然的运动模式，并生成高质量的动画效果。支持多种视觉和音频风格，适用于虚拟主播、动画制作等应用场景。

02,5900

AI大模型 AI工具合集 # Loopy AI # 音频驱动头像动画

Aiuni AI

Aiuni AI 是一款基于 Unique3D 开源技术的在线 AI 图片转 3D 模型生成建模工具，它能够在 30 秒内将单张图片转换为高质量的 3D 模型。用户通过简单的图片上传和点击生成，用户即可获得 360 度无死角的 3D 模型，确保每个角度都具有一致性和高质量的细节。

02,5750

AI大模型 AI工具合集 # 3D 建模工具 # 3D 模型生成 # Aiuni AI

RMBG-2.0

RMBG-2.0是由BRIA AI 开发的开源图像背景移除模型，通过先进的卷积神经网络（CNN）实现高精度的前景与背景分离。该模型在经过精心挑选的数据集（包括一般图像、电子商务、游戏和广告内容）上进行了训练，专为大规模企业内容创建的商业用例设计，其准确性、效率和多功能性可以媲美领先的 Source Available 型号。

02,5750

AI大模型 AI工具合集 # BRIA AI RMBG-2.0 # RMBG-2.0 # 开源背景移除模型

MoonShot AI

MoonShot AI（又名“月之暗面AI”）是一家致力于人工智能技术创新的公司，专注于开发和优化大型AI模型。我们的先进人工智能预测技术正改变未来。从股市分析到疫苗研发，我们的大模型技术提供了前所未有的准确性和速度。

02,5600

AI大模型 AI工具合集 # MoonShot AI

Magi

Magi 的模型是一个可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色，实现了全自动的剧本生成功能。

02,5550

AI大模型 AI工具合集 # Magi # Magi模型 # 漫画转录成文字

Google Gemini

Google Gemini是由谷歌推出的一款人工智能多模态大模型，于2023年12月6日发布。这个模型具有强大的功能，能够同时识别文本、图像、音频、视频和代码五种类型的信息。它还能理解并生成主流编程语言的高质量代码，如Python、Java、C++，并且进行了全面的安全性评估。

02,5350

AI大模型 AI工具合集 # Gemini编程语言生成 # Google Bard Gemini # Google DeepMind Gemini

S2V.AI

S2V.Ai是由MiniMax公司推出的一项创新AI视频生成技术，通过S2V-01模型，用户只需上传一张图片，就能将图片中的主体转化为视频中的角色，并实现高度一致性和自然过渡。这项技术为用户提供了快速、低成本、高质量的视频生成解决方案。

02,5250

AI大模型 AI工具合集 # ai视频生成 # AI视频生成模型 # MiniMax AI模型

华知大模型

华知大模型是由同方知网与华为合作开发的中华知识大模型。它是一个专注于知识服务与科研行业的全栈自主可控的大模型，旨在覆盖政企文教等多个行业场景，并提供30多项通用能力体系。华知大模型的核心特色能力包括智能写作、学术搜问、AI伴读、标准智能问答、机构业务知识智能问答以及图书馆读者智能服务系统等。

02,5150

AI大模型 AI工具合集 # AI伴读工具 # 中华知识大模型 # 华知大模型

孟子生成式大模型

孟子生成式大模型（孟子 GPT）是由澜舟科技研发的一款功能强大的生成式可控大语言模型。它能够通过多轮对话，帮助用户在特定场景中完成各种工作任务，包括内容生成、语言理解、知识问答、推理、代码理解和生成、金融任务等。

02,5100

AI大模型 AI工具合集 # AI语言模型平台 # 孟子 GPT # 孟子生成式大模型

CineMaster

CineMaster是一个3D感知和可控的文本到视频生成框架，旨在帮助用户创建高质量的电影视频。该框架通过两个阶段的工作流程，赋予用户专业电影导演般的控制力，允许他们在 3D 空间中精确地放置场景中的对象，并灵活地操控对象和摄像机。

02,4750

AI大模型 AI工具合集 # 3D感知视频生成 # 创意视频生成工具 # 文本到视频生成

Imagen 3

Imagen 3是Google DeepMind开发的最新文生图大模型。它能够根据文本提示生成高质量、高分辨率的图像，具有更好的细节和丰富的光照效果。这个模型支持多种视觉风格，从照片般逼真到油画质感，甚至黏土动画场景。Imagen 3还改进了对自然语言提示的理解，简化了生成所需图像的过程，并采用了最新的安全和责任技术，包括隐私保护和内容安...

02,4650

AI大模型 AI工具合集 # Imagen 3 图像生成工具 # Imagen 3 文生图模型 # Imagen 3文本到图像

Cherry Studio

Cherry Studio 是一个支持多模型服务的AI桌面客户端，支持 Windows、macOS 和 Linux，未来还将支持移动端。用户可以通过Cherry Studio无缝集成多种大型语言模型 (LLM)，包括 OpenAI、Anthropic 和 Gemini 等，甚至本地部署的模型，确保数据隐私和安全。

02,4650

AI大模型 AI工具合集 # Cherry Studio # 多平台AI客户端

沃研Turbo大模型

沃研Turbo是由沃恩智慧公司专为大学生打造的科研大模型。它集成了多项科研辅助功能，包括期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐和AI降重。通过多模态AIGC技术，沃研Turbo能够快速响应科研需求，提升科研效率。用户只需在网页上上传论文、文本或链接，即可享受便捷的科研辅助服务。沃研Turbo致力于简化科研过程...

02,4500

AI大模型 AI工具合集 # 沃研Turbo大模型 # 沃研Turbo科研大模型 # 科研大模型

DreamTalk

DreamTalk 是一个基于扩散的、以音频驱动的表达性说话头部生成框架，能够跨多种说话风格生成高质量的说话头部视频，由清华大学、阿里巴巴和华中科大共同开发。

02,4450

AI大模型 AI工具合集 # AI说话头生成 # AI面部动画生成 # DreamTalk

Magic Clothing

Magic Clothing是一个专注于控制性的服装驱动图像合成的项目，它是OOTDiffusion模型的一个分支版本，旨在通过服装来控制图像的生成。

02,4450

AI大模型 AI工具合集 # Garment-Driven Image Synthesis # Magic Clothing # 控制性服装驱动图像合成

书生通用大模型

书生通用大模型是由上海人工智能实验室与商汤科技联合发布的大型预训练模型。它包括多个基础模型，如书生·多模态、书生·浦语和书生·天际等。这些模型旨在支持科研创新和产业应用，提供一个全链条开源的研发与应用平台。

02,4350

AI大模型 AI工具合集 # 书生通用大模型

GPT-4o mini

GPT-4o Mini 是 OpenAI 最新推出的小型智能模型，专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出，响应速度极快，适用于实时应用场景。

02,4250

AI大模型 AI工具合集 # GPT-4o mini # GPT-4o mini模型 # OpenAI 小型模型

TangoFlux

TANGOFLUX是一个高效的文本转音频（TTA）生成模型，拥有 515M 参数，能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频，TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音，还能生成音乐。

02,4250

AI大模型 AI工具合集 # TangoFlux # TTA生成模型 # 开源音频生成模型

讯飞星辰MaaS平台

科大讯飞面向开发者打造的智能化模型精调服务平台，构建起贯穿 “数据 - 模型 - 服务” 全链路的工程化解决方案。平台提供数据增强处理、模型精调优化、效果量化评估及一键部署的的端到端开发能力；同时兼容主流开源模型生态，支持第三方模型托管。基于自研分布式训练架构与智能算力调度系统，结合 LoRA 等高效参数优化技术，平台实现大模型定制化开发...

02,4200

AI大模型 AI工具合集 # MCP Server托管 # 星辰MaaS # 智能化模型精调平台

Grok-1

Grok-1是马斯克旗下AI创企xAI发布的一款开源AI大模型。它是一个混合专家（Mixture-of-Experts，MOE）大模型，其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿，是迄今参数量最大的开源大语言模型。旨在用作聊天机器人背后的引擎，用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。

02,4150

AI大模型 AI工具合集 # Grok-1 # Grok-1人工智能 # Grok-1参数量最大的开源模型

言犀

言犀是京东自营智能人机交互平台，助力企业服务数智化转型。以AI技术驱动，从文字、语音到多模态交互，从对话智能到情感智能，聚焦体验、效率与转化，旨在打造新一代智能人机交互平台，面向不同行业和客户场景助力企业服务和营销实现数智化转型升级。

02,4100

AI大模型 AI工具合集 # 智能人机交互平台 # 言犀

阿里云百炼

阿里云百炼是基于通义大模型、行业大模型以及三方大模型的一站式大模型开发平台。面向企业客户和个人开发者，提供完整的模型服务工具和全链路应用开发套件，预置丰富的能力插件，提供API及SDK等便捷的集成方式，高效完成大模型应用构建。

02,4050

AI大模型 AI工具合集 # AI大模型开发平台 # AI应用开发平台 # AI模型部署平台

Hyper-SD

Hyper-SD 是字节跳动推出的一种先进图像生成框架，结合了轨迹分段一致性蒸馏（TSCD）和人类反馈学习（RLHF），显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD，用户可以在 1 到 8 步的推理过程中生成高质量的图像，极大地提高了生成速度和效率。

02,4050

AI大模型 AI工具合集 # Hyper-SD # Hyper-SD 图像生成 # 字节跳动 Hyper-SD

PixArt-Σ

PixArt-Σ是一个由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发的扩散变换器模型（DiT），专门用于4K分辨率的文本到图像生成。

02,4000

AI大模型 AI工具合集 # 4K分辨率图像生成 # 4K图像生成 # Diffusion Transformer

妙笔

妙笔是阿里巴巴最新开源的中文文生图模型，它与经典的Stable Diffusion 1.5版本结构相同，兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作，生成的图像效果逼真。例如，输入“枯藤老树昏鸦，小桥流水人家。水墨画。”，妙笔能够理解诗句中的意境并生成相应的图像。

02,3950

AI大模型 AI工具合集 # AI绘图工具 # 中文文本转图像 # 妙笔