MotionGen MotionGen 是由元象科技推出的创新 3D 动作生成模型。通过结合大模型、物理仿真和强化学习等前沿算法,简化 3D 动画制作过程。用户只需输入简单的文本指令,即可快速生成逼真、流畅且复杂的 3D 动作。无论是动画、游戏、电影还是虚拟现实行业,MotionGen 都能显著提高创作效率,降低制作成本。 01,7350 AI大模型AI工具合集# 3D 动画制作工具# 3D动作生成模型# MotionGen 3D 动作生成
Moonvalley.ai Moonvalley.ai是一款功能强大的文本到视频生成式AI模型。它可以从简单的文字描述中生成高清视频和动画,涵盖各种不同的风格,包括超现实视频、动漫以及介于两者之间的所有内容。用户只需提供简要的文字提示,即可创造电影级的视觉效果。该模型主打高清、16:9电影画质,视频质量比大多数其他一代AI视频工具要好得多。 01,7100 AI大模型AI工具合集# Moonvalley.ai# Moonvalley.ai AI视频转换工具# Moonvalley.ai文本到视频生成
可灵大模型 可灵大模型是快手AI团队自研的一款视频生成大模型,采用类似Sora的技术路线,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。 01,6950 AI大模型AI工具合集# 1080P高清视频生成# AI视频生成器# ai视频生成工具有哪些
Sora Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。 01,6650 AI大模型AI工具合集# Sora# sora ai# sora openai
支付宝百宝箱(Tbox) 支付宝推出的零代码AI应用开发平台,用户通过自然语言指令即可快速创建智能体,无需编程基础。平台集成通义千问、蚂蚁百灵等多种大模型,支持对话交互、文本生成、图片生成等核心功能,并实现支付宝小程序、App等多平台一键发布,满足个人用户、商家及开发者的多样化需求。 01,6650 AI大模型AI工具合集# 支付宝智能体创建工具# 零代码AI开发平台
UniVG UniVG是百度推出的一种统一模态视频生成系统。它能够处理多种输入模态,如文本和图像,并生成与输入语义高度一致的视频。UniVG采用了多条件交叉注意力技术和偏置高斯噪声方法,以提高生成视频的质量和保留原始内容。 01,6600 AI大模型AI工具合集# UniVG视频生成# UniVG视频生成系统# 文本图像视频生成
LTX Video LTX Video是由 Lightricks公司推出的首个REAL-TIME AI视频生成开源模型。它基于 DiT (Diverse Image Transformer) 架构,能够实时生成高质量的视频。LTX Video 能够以 24 FPS 和 768x512 分辨率生成视频,生成速度比观看速度还要快。 01,6600 AI大模型AI工具合集# LTX Video# 开源视频工具
Seed-TTS Seed-TTS是由字节跳动开发的一系列大规模自回归文本到语音(TTS)模型。它能够生成高度自然、与人类语音几乎无法区分的语音。这个模型特别擅长学习语音上下文、说话人相似度和自然度等方面的特征,从而产生质量极高的语音输出。 01,6300 AI大模型AI工具合集# Seed-TTS语音合成# 字节跳动文本到语音# 字节跳动语音大模型
GPT智库 GPT智库是一款强大的人工智能大模型综合应用,提供互联网境外访问绿色通道、汇聚了全球顶尖的人工智能大模型和学术资源。它具备智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能,为科研院所、新闻媒体、高校和政府部门提供安全、合规、可控的全球一流人工智能服务。 01,6150 AI大模型AI工具合集# GPT智库# 大模型应用平台
Video-LLaVA Video-LLaVA是由北京大学ChatLaw课题组开发的一款视频问答模型。它基于Transformer架构,能够处理视频和问题,通过自注意力机制来捕捉二者之间的关联信息,并可以回答有关其内容的问题,它准确地描述了这些媒体中的视觉效果。这个模型通过在大量视频数据上进行预训练,使得它能够理解丰富的视频特征和问题语义,进而在视频问答任务上取... 01,5900 AI大模型AI工具合集# AI视频分析# Video-LLaVA模型# 视频摘要生成
智谱清流 智谱清流是智谱AI推出的企业级AI智能体开发平台,旨在帮助企业快速构建和部署AI应用,实现业务流程的智能化升级。该平台基于智谱全模型矩阵和先进的大模型技术(如GLM系列),提供了一整套工具和服务,支持多种集成方式,满足不同企业的智能化需求。 01,5900 AI大模型AI工具合集# 企业级AI平台# 大模型应用# 智谱清流
InstructAvatar InstructAvatar是一个先进的AI框架,它使用自然语言界面来控制2D头像的情绪和面部动作。这个系统允许用户通过文本指令来精细控制头像的表情和运动,从而生成具有情感表现力的视频。 01,5500 AI大模型AI工具合集# 2D头像动作同步# AI动态头像设计# AI头像互动
文心千帆 文心千帆是百度智能云推出的产业级知识增强大模型,包括基础大模型、任务大模型、行业大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。它能够从海量数据和大规模知识中融合学习,效率更高,效果更好,具备知识增强、检索增强和对话增强的技术特色。 01,5400 AI大模型AI工具合集# 大模型平台# 文心千帆# 文心千帆大模型平台
知海图AI 知海图AI是知乎与面壁智能合作开发的中文大模型,于2023年4月13日开始内测。它的主要功能是对知乎热榜上的问题回答进行要素抽取、观点梳理和内容聚合,以便用户能够更快、更全面地了解知友们讨论的热点与焦点。知海图AI在特定场景中的表现与GPT-4相当,显示出强大的语言理解和内容总结能力。此外,知海图AI的发布也标志着知乎在大语言模型领域的进... 01,5400 AI大模型AI工具合集# 知乎AI应用# 知乎大模型# 知海图AI
MagicVideo-V2 MagicVideo-V2是字节跳动公司团队开发的一款AI视频生成模型和框架。它通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块到一个端到端的视频生成流程中,可以生成高保真和美观的视频,并实现高分辨率视觉质量与流畅运动的一致性。 01,5000 AI大模型AI工具合集# MagicVideo-V2# MagicVideo-V2视频生成模型# 文本到图像模型
53AI 53AI是一个开箱即用的企业大模型应用平台,致力于帮助企业快速部署和利用大型语言模型(LLMs),提供企业大模型落地应用、业务智能化改造、私有模型定制和大模型咨询服务。通过 53AI,企业可以轻松实现业务流程的智能化,提高运营效率和竞争力。它支持私有云部署,帮助企业实现大模型的知识库建设、模型训练和智能体开发,从而将AI技术应用于企业的各... 01,5000 AI大模型AI工具合集# 53AI# 企业大模型平台# 企业知识库建设
Auto-GPT Auto-GPT 是一个使用 GPT-4 语言模型来自动执行多步骤项目的开源应用程序。它可以让 GPT-4 自主行动,根据自然语言的目标,自动地分解成子任务,并利用互联网和其他工具来实现它,而无需人工提示。 01,4950 AI大模型AI工具合集# auto-gpt# autogpt# autogpt教程
云雀大模型 云雀大模型是字节跳动公司开发的一款大规模预训练语言模型。该模型采用 Transformer 架构,它能够处理多种自然语言处理任务,如聊天、绘画、写作和学习。云雀大模型利用了大量的数据进行训练,包括文本、图像、视频和音频等,以学习丰富的语言知识和语境信息。此外,它还具有视频内容理解能力,能够识别视频中的对象、场景和情感等关键要素,为多模态任... 01,4950 AI大模型AI工具合集# AI智能体# 云雀大模型# 云雀语言模型
悟道大模型 悟道大模型是智源研究院打造的人工智能模型系统,不仅具备强大的语言理解和生成能力,还能进行逻辑推理、代码分析、图像生成等多种任务,支持多种类型的文本内容生成,如小说、歌词、诗歌、对联等。 01,4900 AI大模型AI工具合集# 基础模型研究中心# 悟道2.0# 悟道3.0
Harmonai Harmonai是一个开源生成音频工具,专注于开源的生成音频模型,让每个人都能轻松愉快地进行音乐制作。 01,4550 AI大模型AI工具合集# ai音频模型# Harmonai音频工具# 开源生成音频工具
灵境矩阵 灵境矩阵是百度推出的一个基于文心大模型的智能体(Agent)平台。它支持开发者根据自己的行业领域和应用场景,选择不同的开发方式来构建产品,以适应大模型时代的需求。开发者可以通过低成本的prompt编排方式来开发智能体,同时平台还提供了流量分发路径,帮助开发者完成商业闭环。 01,4550 AI大模型AI工具合集# ai灵境# AI灵境平台# 一言官方智能体开发平台
SeamlessM4T SeamlessM4T是Meta推出的一款多语言和多任务模型,能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言,可以将语音转录为文本,再进行翻译,甚至可以将翻译后的文本转化为语音。 01,4500 AI大模型AI工具合集# SeamlessM4T模型# 多语言翻译模型# 文本到语音转换
SeedEdit SeedEdit是一种由字节跳动(ByteDance)豆包团队推出的智能图像编辑模型。它通过自然语言指令简化了图像编辑过程,用户只需输入简单的描述语句,就能实现图像的调整、美化、转换等操作。 01,4500 AI大模型AI工具合集# SeedEdit# 图像编辑AI技术# 智能图像编辑工具
BuboGPT BuboGPT是字节跳动推出的一种先进的大型语言模型(LLM),它具有将文本、图像和音频等多模态输入进行整合的能力,并且具备将回复与视觉对象进行对接的独特功能,可以执行跨模态交互并做到对多模态的细粒度理解。这显示出BuboGPT在对齐或未对齐的任意图像音频数据理解方面有着出色的对话能力。 01,4250 AI大模型AI工具合集# BuboGPT# BuboGPT大型语言模型# 多模态理解与对话
HoloDreamer HoloDreamer是一款文本驱动的3D场景生成框架,通过用户的文本描述生成沉浸式且视角一致的完整3D场景。它由风格化全景生成和增强型全景重建两个核心模块组成,该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreame... 01,4000 AI大模型AI工具合集# 3D场景生成# 3D场景生成工具# AI生成3D
浦语·灵笔2.5 浦语·灵笔2.5 是一款开源图文多模态大模型,支持图文创作、网页生成、视频理解与语音交互,具备超长上下文、多轮多图对话与高分辨率图像处理能力,广泛应用于内容创作、教育、智能助手等场景。 01,3950 AI大模型AI工具合集# 图文多模态大模型# 视频理解大模型
腾讯混元DiT 腾讯混元DiT是一个基于Diffusion transformer的文本到图像生成模型,也是业内首个中文原生的DiT架构文生图开源模型。该模型具有中英文细粒度理解能力,能够与用户进行多轮对话,根据上下文生成并完善图像。 01,3900 AI大模型AI工具合集# AI广告创意工具# 中文原生Diffusion Transformer模型# 中文文生图模型
EMO EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动... 01,3850 AI大模型AI工具合集# AI肖像视频生成工具# Emote Portrait Alive# 单张照片生成视频
PixelDance PixelDance是由字节跳动开发的一款高动态视频生成模型,它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令(针对视频片段的首尾帧)和文本指令,使得生成的视频不仅视觉上丰富,而且动作细节丰富,能够展现出高度的动态性。 01,3650 AI大模型AI工具合集# PixelDance# PixelDance视频生成模型# 图像指令视频生成
Lumiere Lumiere是谷歌发布的一个文本到视频扩散模型,于2024年正式发布。这个模型能够直接生成全帧率、低分辨率视频,通过训练海量文本和视频数据,可以将文字描述直接转化为高质量、真实、多样且连贯动作的视频。适用于多种内容创作和视频编辑应用,如图像到视频、视频修复和风格化生成。 01,3450 AI大模型AI工具合集# AI 视频生成# AI 视频生成工具# Google Lumiere视频模型