AI大模型

共 157 篇网址

Lumiere

Lumiere是谷歌发布的一个文本到视频扩散模型，于2024年正式发布。这个模型能够直接生成全帧率、低分辨率视频，通过训练海量文本和视频数据，可以将文字描述直接转化为高质量、真实、多样且连贯动作的视频。适用于多种内容创作和视频编辑应用，如图像到视频、视频修复和风格化生成。

03,6300

AI大模型 AI工具合集 # AI 视频生成 # AI 视频生成工具 # Google Lumiere视频模型

支付宝百宝箱（Tbox）

支付宝推出的零代码AI应用开发平台，用户通过自然语言指令即可快速创建智能体，无需编程基础。平台集成通义千问、蚂蚁百灵等多种大模型，支持对话交互、文本生成、图片生成等核心功能，并实现支付宝小程序、App等多平台一键发布，满足个人用户、商家及开发者的多样化需求。

03,5900

AI大模型 AI工具合集 # 支付宝智能体创建工具 # 零代码AI开发平台

53AI

53AI是一个开箱即用的企业大模型应用平台，致力于帮助企业快速部署和利用大型语言模型（LLMs），提供企业大模型落地应用、业务智能化改造、私有模型定制和大模型咨询服务。通过 53AI，企业可以轻松实现业务流程的智能化，提高运营效率和竞争力。它支持私有云部署，帮助企业实现大模型的知识库建设、模型训练和智能体开发，从而将AI技术应用于企业的各...

03,5850

AI大模型 AI工具合集 # 53AI # 企业大模型平台 # 企业知识库建设

Video-LLaVA

Video-LLaVA是由北京大学ChatLaw课题组开发的一款视频问答模型。它基于Transformer架构，能够处理视频和问题，通过自注意力机制来捕捉二者之间的关联信息，并可以回答有关其内容的问题，它准确地描述了这些媒体中的视觉效果。这个模型通过在大量视频数据上进行预训练，使得它能够理解丰富的视频特征和问题语义，进而在视频问答任务上取...

03,5400

AI大模型 AI工具合集 # AI视频分析 # Video-LLaVA模型 # 视频摘要生成

MotionGen

MotionGen 是由元象科技推出的创新 3D 动作生成模型。通过结合大模型、物理仿真和强化学习等前沿算法，简化 3D 动画制作过程。用户只需输入简单的文本指令，即可快速生成逼真、流畅且复杂的 3D 动作。无论是动画、游戏、电影还是虚拟现实行业，MotionGen 都能显著提高创作效率，降低制作成本。

03,5150

AI大模型 AI工具合集 # 3D 动画制作工具 # 3D动作生成模型 # MotionGen 3D 动作生成

Harmonai

Harmonai是一个开源生成音频工具，专注于开源的生成音频模型，让每个人都能轻松愉快地进行音乐制作。

03,4950

AI大模型 AI工具合集 # ai音频模型 # Harmonai音频工具 # 开源生成音频工具

Auto-GPT

Auto-GPT 是一个使用 GPT-4 语言模型来自动执行多步骤项目的开源应用程序。它可以让 GPT-4 自主行动，根据自然语言的目标，自动地分解成子任务，并利用互联网和其他工具来实现它，而无需人工提示。

03,4650

AI大模型 AI工具合集 # auto-gpt # autogpt # autogpt教程

LTX Video

LTX Video是由 Lightricks公司推出的首个REAL-TIME AI视频生成开源模型。它基于 DiT (Diverse Image Transformer) 架构，能够实时生成高质量的视频。LTX Video 能够以 24 FPS 和 768x512 分辨率生成视频，生成速度比观看速度还要快。

03,4600

AI大模型 AI工具合集 # LTX Video # 开源视频工具

可灵大模型

可灵大模型是快手AI团队自研的一款视频生成大模型，采用类似Sora的技术路线，能够生成符合物理规律的大幅度运动视频，模拟真实世界的特性。支持生成长达2分钟的30fps的超长视频，分辨率高达1080p，且支持多种宽高比。2024年6月，快手正式推出了可灵大模型，并在快影App开放邀测体验。

03,4450

AI大模型 AI工具合集 # 1080P高清视频生成 # AI视频生成器 # ai视频生成工具有哪些

Moonvalley.ai

Moonvalley.ai是一款功能强大的文本到视频生成式AI模型。它可以从简单的文字描述中生成高清视频和动画，涵盖各种不同的风格，包括超现实视频、动漫以及介于两者之间的所有内容。用户只需提供简要的文字提示，即可创造电影级的视觉效果。该模型主打高清、16:9电影画质，视频质量比大多数其他一代AI视频工具要好得多。

03,4350

AI大模型 AI工具合集 # Moonvalley.ai # Moonvalley.ai AI视频转换工具 # Moonvalley.ai文本到视频生成

Sora

Sora是一个能以文本描述生成视频的人工智能模型，由美国人工智能研究机构OpenAI开发。它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。并在单个生成视频中创建多个镜头，准确保留角色和视觉风格。

03,4050

AI大模型 AI工具合集 # Sora # sora ai # sora openai

灵境矩阵

灵境矩阵是百度推出的一个基于文心大模型的智能体（Agent）平台。它支持开发者根据自己的行业领域和应用场景，选择不同的开发方式来构建产品，以适应大模型时代的需求。开发者可以通过低成本的prompt编排方式来开发智能体，同时平台还提供了流量分发路径，帮助开发者完成商业闭环。

03,3350

AI大模型 AI工具合集 # ai灵境 # AI灵境平台 # 一言官方智能体开发平台

MuseV

MuseV是一个由腾讯音乐娱乐旗下的天琴实验室推出的基于SD扩散模型的高保真虚拟人视频生成框架。支持文生视频、图生视频、视频生视频等多种生成方式，能够保持角色一致性，且不受视频长度限制。这意味着用户可以通过MuseV轻松地将文本、图像或现有视频转换成高质量的虚拟人视频，无需担心角色形象的不统一或视频时长的限制。

03,3050

AI大模型 AI工具合集 # ai数字人视频 # AI数字人视频生成 # MuseV

UniVG

UniVG是百度推出的一种统一模态视频生成系统。它能够处理多种输入模态，如文本和图像，并生成与输入语义高度一致的视频。UniVG采用了多条件交叉注意力技术和偏置高斯噪声方法，以提高生成视频的质量和保留原始内容。

03,2900

AI大模型 AI工具合集 # UniVG视频生成 # UniVG视频生成系统 # 文本图像视频生成

Ferret-UI

Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态AI大语言模型。它专为增强对移动端用户界面（UI）屏幕的理解而设计，具备引用、定位和推理功能。这个模型能够理解手机屏幕上的内容并执行任务，专注于移动端和用户交互。

03,2850

AI大模型 AI工具合集 # Ferret-UI # 智能UI交互助手 # 智能UI设计助手

智谱清流

智谱清流是智谱AI推出的企业级AI智能体开发平台，旨在帮助企业快速构建和部署AI应用，实现业务流程的智能化升级。该平台基于智谱全模型矩阵和先进的大模型技术（如GLM系列），提供了一整套工具和服务，支持多种集成方式，满足不同企业的智能化需求。

03,2800

AI大模型 AI工具合集 # 企业级AI平台 # 大模型应用 # 智谱清流

FlashVideo

FlashVideo是一个由字节跳动和香港大学联合开发的高效高分辨率视频生成框架，特别适用于文本到视频的生成。通过创新的两阶段框架设计和流匹配技术，FlashVideo 能在短时间内生成 1080p 高清视频，优化视频流畅性，并减少计算成本。

03,2800

AI大模型 AI工具合集 # AI视频生成框架 # 动态视频生成框架 # 视频生成框架

InspireMusic

InspireMusic 是由阿里巴巴通义实验室推出的开源音乐生成框架，集成了多项音频领域的前沿研究成果，为开发者和研究者提供全面的音乐创作、风格转换和音效合成解决方案。该框架依托多模态大模型技术，支持通过文本描述或音频输入进行智能化创作，并提供完善的模型调优工具链。

03,2350

AI大模型 AI工具合集 # 开源音乐生成模型 # 音乐生成模型

SeamlessM4T

SeamlessM4T是Meta推出的一款多语言和多任务模型，能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言，可以将语音转录为文本，再进行翻译，甚至可以将翻译后的文本转化为语音。

03,2300

AI大模型 AI工具合集 # SeamlessM4T模型 # 多语言翻译模型 # 文本到语音转换

云雀大模型

云雀大模型是字节跳动公司开发的一款大规模预训练语言模型。该模型采用 Transformer 架构，它能够处理多种自然语言处理任务，如聊天、绘画、写作和学习。云雀大模型利用了大量的数据进行训练，包括文本、图像、视频和音频等，以学习丰富的语言知识和语境信息。此外，它还具有视频内容理解能力，能够识别视频中的对象、场景和情感等关键要素，为多模态任...

03,2250

AI大模型 AI工具合集 # AI智能体 # 云雀大模型 # 云雀语言模型

悟道大模型

悟道大模型是智源研究院打造的人工智能模型系统，不仅具备强大的语言理解和生成能力，还能进行逻辑推理、代码分析、图像生成等多种任务，支持多种类型的文本内容生成，如小说、歌词、诗歌、对联等。

03,2200

AI大模型 AI工具合集 # 基础模型研究中心 # 悟道2.0 # 悟道3.0

InstructAvatar

InstructAvatar是一个先进的AI框架，它使用自然语言界面来控制2D头像的情绪和面部动作。这个系统允许用户通过文本指令来精细控制头像的表情和运动，从而生成具有情感表现力的视频。

03,1850

AI大模型 AI工具合集 # 2D头像动作同步 # AI动态头像设计 # AI头像互动

MagicVideo-V2

MagicVideo-V2是字节跳动公司团队开发的一款AI视频生成模型和框架。它通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块到一个端到端的视频生成流程中，可以生成高保真和美观的视频，并实现高分辨率视觉质量与流畅运动的一致性。

03,1800

AI大模型 AI工具合集 # MagicVideo-V2 # MagicVideo-V2视频生成模型 # 文本到图像模型

Mistral AI

Mistral AI 是一家来自法国的人工智能服务商，专注于大型语言模型和生成式人工智能的构建、培训和应用。Mistral AI 的目标是与 OpenAI 和谷歌竞争，为企业开发生成式人工智能基础设施。

03,1700

AI大模型 AI工具合集

CatVTON

CatVTON是一款基于扩散模型的虚拟试穿技术工具，旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿，该方法有效地降低了模型复杂度和计算成本，同时保持了高质量的虚拟试衣效果，特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。

03,1250

AI大模型 AI工具合集 # AI虚拟试衣 # AI虚拟试衣工具 # CatVTON

CogVideo

CogVideo是目前最大的通用领域文本到视频生成预训练模型，含94亿参数。CogVideo将预训练文本到图像生成模型（CogView2）有效地利用到文本到视频生成模型，并使用了多帧率分层训练策略。

03,1050

AI大模型 AI工具合集 # CogVideo # 文本到视频生成预训练模型 # 文本生成视频大模型

盘古大模型

盘古大模型 3.0 是一个面向行业的AI大模型系列，包含自然语言、视觉、多模态、预测、科学计算大模型等五个基础大模型，可以为用户提供知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力。

03,1050

AI大模型 AI工具合集 # AI模型训练 # AI预测模型 # 千亿参数AI模型

GPT智库

GPT智库是一款强大的人工智能大模型综合应用，提供互联网境外访问绿色通道、汇聚了全球顶尖的人工智能大模型和学术资源。它具备智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能，为科研院所、新闻媒体、高校和政府部门提供安全、合规、可控的全球一流人工智能服务。

03,1050

AI大模型 AI工具合集 # GPT智库 # 大模型应用平台

扣子空间

字节跳动推出的自动化AI平台，主打"一句话完成任务"功能。用户无需填写专业提示词、选择模板、模型或配置工具插件，提交任务后系统自动执行并返回结果。在扣子空间中，你可以与各类AI Agent协同工作。

03,0950

AI大模型 AI工具合集 # AI智能体协同平台 # 智能协同办公平台

Adobe Firefly Image2

Adobe Firefly Image 2 是Adobe推出的一款生成式人工智能模型，建立在Firefly图像模型的基础上，专为设计师和创作者提供更强大、更智能的图像生成能力。它通过简单的文字描述，可以生成高质量的图像、文字效果和鲜艳的调色板。

03,0900

AI大模型 AI工具合集 # Adobe Firefly Image 2 # AI 图像生成 # ai绘画一键生成绘画