AI大模型

共 157 篇网址

VISION XL

VISION XL是一款专注于解决视频逆问题的超高清视频修复工具。利用潜在图像扩散模型，VISION XL 高效处理视频去模糊、超分辨率和修复等任务，显著提升视频清晰度。支持多种降质形式和高分辨率重建，保证时间一致性。适用于视频修复、去模糊和超分辨率增强，让用户轻松实现高清视频的清晰化处理。

02,2150

AI大模型 AI工具合集 # AI视频修复 # VISION XL # 一键视频清晰化

千影QianYing

千影 QianYing 是一款由巨人网络 AI Lab 推出的有声游戏生成大模型，包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。通过先进的人工智能技术，千影 QianYing 能够自动生成高质量、有声的游戏视频。YingGame 通过自定义角色、动作控制和物理模拟，创造互动性强的游戏内容；YingSoun...

02,7450

AI大模型 AI工具合集 # AI游戏创作工具 # YingGame大模型 # 千影QianYing

HelloMeme

HelloMeme 是一个专注于生成高保真图像和视频内容的开源AI 项目，特别是表情克隆技术。通过采用最新的 SD1.5 架构和空间编织注意力扩散模型，HelloMeme 可以轻松将一张图片的表情迁移到另一张图片或视频上，生成效果超越同类工具如 Liveportrait。HelloMeme 支持 ComfyUI 界面操作，非常适用于 AI...

02,6400

AI大模型 AI工具合集 # HelloMeme # HelloMeme AI # 表情克隆技术

StereoCrafter

StereoCrafter是腾讯AI实验室开发的一款开源框架，能够将普通的 2D 视频转换为沉浸式的 3D 视频。通过深度估计和立体视频修复技术，StereoCrafter 提供高质量的 3D 视频生成，支持多种视频源，包括电影、视频博客、3D 动画和 AI 生成内容。

02,2800

AI大模型 AI工具合集 # 2D转3D视频转换 # AR视频生成 # StereoCrafter

TangoFlux

TANGOFLUX是一个高效的文本转音频（TTA）生成模型，拥有 515M 参数，能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频，TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音，还能生成音乐。

02,4250

AI大模型 AI工具合集 # TangoFlux # TTA生成模型 # 开源音频生成模型

天谱乐

天谱乐是唱鸭旗下的AI音乐品牌，为用户提供个性化、智能化的音乐创作体验。它支持文本、图片和视频生成音乐，让创作变得简单便捷。利用先进的多模态理解与生成技术，天谱乐能够生成与图片和视频情感高度契合的音乐，并提供发行级的歌曲创作服务。无论是专业音乐人还是普通爱好者，天谱乐都能帮助您高效创作出独一无二的音乐作品。

02,7750

AI大模型 AI工具合集 # AI音乐创作平台 # 在线AI音乐创作平台 # 天谱乐

S2V.AI

S2V.Ai是由MiniMax公司推出的一项创新AI视频生成技术，通过S2V-01模型，用户只需上传一张图片，就能将图片中的主体转化为视频中的角色，并实现高度一致性和自然过渡。这项技术为用户提供了快速、低成本、高质量的视频生成解决方案。

02,5250

AI大模型 AI工具合集 # ai视频生成 # AI视频生成模型 # MiniMax AI模型

53AI

53AI是一个开箱即用的企业大模型应用平台，致力于帮助企业快速部署和利用大型语言模型（LLMs），提供企业大模型落地应用、业务智能化改造、私有模型定制和大模型咨询服务。通过 53AI，企业可以轻松实现业务流程的智能化，提高运营效率和竞争力。它支持私有云部署，帮助企业实现大模型的知识库建设、模型训练和智能体开发，从而将AI技术应用于企业的各...

03,5850

AI大模型 AI工具合集 # 53AI # 企业大模型平台 # 企业知识库建设

DeepSeek

DeepSeek（深度求索）是一款当前非常火爆的开源大型语言模型，因其性能媲美世界顶尖的闭源模型如 ChatGPT 和 Claude 而备受瞩目。该模型在极低成本的情况下完成训练，为用户提供了高效、精准的语言理解和生成能力。

02,7550

AI大模型 AI工具合集 # DeepSeek # 开源语言模型

Janus-Pro

Janus-Pro是由 DeepSeek AI 开发的先进多模态 AI 模型，专注于实现图像理解与图像生成的无缝结合。Janus-Pro 通过优化的训练策略、扩展的训练数据和更大的模型规模，在多模态理解和文本到图像生成方面取得了显著进步。

02,3650

AI大模型 AI工具合集 # Janus-Pro

Darwin

Darwin是一个开源项目，专注于自然科学领域的大型语言模型构建，主要涵盖物理、化学和材料科学。通过对科学文献和数据集进行预训练和微调，Darwin 在科学问答和多任务学习任务中表现优异。它结合了结构化和非结构化的科学知识，提升了语言模型在科学研究中的效能。

02,1350

AI大模型 AI工具合集 # Darwin # 开源科学研究工具 # 材料科学大模型

YuE

YuE是由香港科技大学开发的开源音乐生成模型，专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言，能够生成高质量的声乐和伴奏部分，适用于各种音乐创作需求。通过 YuE，用户可以轻松生成长达 5 分钟的完整歌曲，实现创意音乐制作。

02,7200

AI大模型 AI工具合集 # AI音乐创作工具 # YuE # 全曲音乐生成

PengChengStarling

PengChengStarling是由 PengCheng Labs 开发的多语言自动语音识别工具，支持中文、英语、俄语、越南语、日语、泰语、印度尼西亚语和阿拉伯语。相比 Whisper-Large v3，PengChengStarling 的模型仅占其 20% 大小，但推理速度提高了 7 倍，且流式语音识别效果卓越。

02,1700

AI大模型 AI工具合集 # PengChengStarling # 实时流式语音识别 # 开源语音识别模型

Cherry Studio

Cherry Studio 是一个支持多模型服务的AI桌面客户端，支持 Windows、macOS 和 Linux，未来还将支持移动端。用户可以通过Cherry Studio无缝集成多种大型语言模型 (LLM)，包括 OpenAI、Anthropic 和 Gemini 等，甚至本地部署的模型，确保数据隐私和安全。

02,4650

AI大模型 AI工具合集 # Cherry Studio # 多平台AI客户端

Tarsier

Tarsier是由字节跳动研发的大规模视频语言模型家族，旨在生成高质量的视频描述，并具备良好的视频理解能力。Tarsier 采用了简单的模型结构，结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略，Tarsier 展现出了强大的视频描述能力和视频理解能力，在多个公共基准测试中取得了最先进的成果。

02,3250

AI大模型 AI工具合集 # Tarsier # 大规模视频语言模型 # 视频问答模型

LMArena AI

LMArena AI 是一个专注于众包 AI 基准测试的开放平台，由加州大学伯克利分校 SkyLab 和 LMSYS 研究团队打造。用户可以在平台上免费与 AI 聊天并进行投票，比较和测试不同的 AI 聊天机器人。LMArena AI 提供盲测模式、匿名对战、投票系统和风格控制等功能，确保评估的公平性和客观性。平台还支持多模态功能，允许用...

02,2200

AI大模型 AI工具合集 # AI基准测试 # AI模型性能测试 # AI模型排行榜

Loopy AI

Loopy是一个端到端音频驱动的视频生成模型，专注于生成逼真的头像动画。利用先进的 AI 技术和时间模块设计，Loopy 能够从音频中提取自然的运动模式，并生成高质量的动画效果。支持多种视觉和音频风格，适用于虚拟主播、动画制作等应用场景。

02,5900

AI大模型 AI工具合集 # Loopy AI # 音频驱动头像动画

JoyGen

JoyGen是一个音频驱动的3D深度感知说话人脸视频生成框架。它通过音频驱动生成嘴唇运动和视觉外观合成，旨在实现精确的嘴唇-音频同步和高视觉质量。

02,8650

AI大模型 AI工具合集 # 3D说话人脸生成 # JoyGen # 音频驱动3D说话人脸视频模型

Hibiki

Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译（也称为同步翻译）的模型。与离线翻译不同，离线翻译需要等待源语句结束后才开始翻译，而 Hibiki 能够实时积累足够的上下文，以逐块生成正确的翻译。用户在讲话时，Hibiki 会在目标语言中生成自然的语音，并提供文本翻译。

02,9100

AI大模型 AI工具合集 # Hibiki # 实时语音翻译模型 # 语音翻译模型

Goku

Goku是一个基于流生成的视频生成基础模型，由香港大学和字节跳动研究团队共同开发。Goku 模型主要用于生成高质量的视频内容，尤其在广告和营销场景中表现尤为出色。

02,2000

AI大模型 AI工具合集 # 图像到视频生成 # 多模态视频生成 # 视频生成模型

InspireMusic

InspireMusic 是由阿里巴巴通义实验室推出的开源音乐生成框架，集成了多项音频领域的前沿研究成果，为开发者和研究者提供全面的音乐创作、风格转换和音效合成解决方案。该框架依托多模态大模型技术，支持通过文本描述或音频输入进行智能化创作，并提供完善的模型调优工具链。

03,2500

AI大模型 AI工具合集 # 开源音乐生成模型 # 音乐生成模型

YAYI2

YAYI2（雅意2）是中科闻歌推出的新一代开源大语言模型，支持中文、英语等 10 多种语言。基于 Transformer 架构，参数规模达到 30B。YAYI2 采用 2 万亿 Tokens 的高质量语料进行预训练，并结合人类反馈强化学习，确保模型与人类价值观对齐。其多模态交互功能支持图文互生成、PDF 解析等。YAYI2 广泛应用于媒体...

02,0850

AI大模型 AI工具合集 # 中文NLP模型 # 开源大语言模型

FireRedASR

FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果，并且在歌词识别方面表现出色。

02,9600

AI大模型 AI工具合集 # FireRedASR下载 # 开源语音识别工具 # 自动语音识别模型

FlashVideo

FlashVideo是一个由字节跳动和香港大学联合开发的高效高分辨率视频生成框架，特别适用于文本到视频的生成。通过创新的两阶段框架设计和流匹配技术，FlashVideo 能在短时间内生成 1080p 高清视频，优化视频流畅性，并减少计算成本。

03,3300

AI大模型 AI工具合集 # AI视频生成框架 # 动态视频生成框架 # 视频生成框架

CineMaster

CineMaster是一个3D感知和可控的文本到视频生成框架，旨在帮助用户创建高质量的电影视频。该框架通过两个阶段的工作流程，赋予用户专业电影导演般的控制力，允许他们在 3D 空间中精确地放置场景中的对象，并灵活地操控对象和摄像机。

02,4750

AI大模型 AI工具合集 # 3D感知视频生成 # 创意视频生成工具 # 文本到视频生成

WiseDiag-Z1

WiseDiag-Z1是由杭州智诊科技推出的全科医学通用大语言模型，专为医疗领域设计，具有730亿参数和强大的医学知识库。它在知名的医学大模型主流榜单中名列前茅，适用于大多数复杂场景的健康咨询。

02,1050

AI大模型 AI工具合集 # 全科医学AI # 医学大语言模型 # 医生助手AI

RAGFlow

RAGFlow是一款开源的检索增强生成（RAG）引擎，专为深入理解文档而设计。它为各类企业和个人提供简洁高效的RAG工作流程，与大语言模型（LLM）相结合，针对各种复杂格式的数据提供可靠的问答及有依据的引用。RAGFlow非常适合需要动态内容生成且依赖外部知识库的场景，如智能客服、文档生成和数据分析等，助力用户高效挖掘大量数据中的有价值信...

02,9700

AI大模型 AI工具合集 # 开源RAG引擎 # 文档解析工具

Step-Video-T2V

Step-Video-T2V 是由阶跃星辰与吉利汽车集团联合开源的一款先进文本生成视频（Text-to-Video）模型。这款模型在 2025 年 2 月 18 日正式发布，具备强大的多模态生成能力，支持中文和英文输入，适用于广告、影视制作、教育等多个场景。

02,6450

AI大模型 AI工具合集 # Step-Video-T2V开源模型 # Text-to-Video模型 # 多模态视频生成模型

讯飞星辰MaaS平台

科大讯飞面向开发者打造的智能化模型精调服务平台，构建起贯穿 “数据 - 模型 - 服务” 全链路的工程化解决方案。平台提供数据增强处理、模型精调优化、效果量化评估及一键部署的的端到端开发能力；同时兼容主流开源模型生态，支持第三方模型托管。基于自研分布式训练架构与智能算力调度系统，结合 LoRA 等高效参数优化技术，平台实现大模型定制化开发...

02,4200

AI大模型 AI工具合集 # MCP Server托管 # 星辰MaaS # 智能化模型精调平台

扣子空间

字节跳动推出的自动化AI平台，主打"一句话完成任务"功能。用户无需填写专业提示词、选择模板、模型或配置工具插件，提交任务后系统自动执行并返回结果。在扣子空间中，你可以与各类AI Agent协同工作。

03,0950

AI大模型 AI工具合集 # AI智能体协同平台 # 智能协同办公平台