PuLID PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,能够在无需调整模型的情况下轻松生成个性化写真。该技术能够保持高身份(ID)保真度,同时最大限度地减少对原始图像风格和背景的干扰,支持用户通过文本提示轻松编辑图像,生成逼真且个性化的图像结果。 06750 AI大模型AI工具合集# PuLID# 高保真图像生成
Tarsier Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。 06750 AI大模型AI工具合集# Tarsier# 大规模视频语言模型# 视频问答模型
PixArt-Σ PixArt-Σ是一个由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发的扩散变换器模型(DiT),专门用于4K分辨率的文本到图像生成。 06700 AI大模型AI工具合集# 4K分辨率图像生成# 4K图像生成# Diffusion Transformer
StereoCrafter StereoCrafter是腾讯AI实验室开发的一款开源框架,能够将普通的 2D 视频转换为沉浸式的 3D 视频。通过深度估计和立体视频修复技术,StereoCrafter 提供高质量的 3D 视频生成,支持多种视频源,包括电影、视频博客、3D 动画和 AI 生成内容。 06650 AI大模型AI工具合集# 2D转3D视频转换# AR视频生成# StereoCrafter
千帆慧金 千帆慧金是百度智能云自主研发的金融行业垂直大模型,聚焦金融场景的智能化需求,以“专业、可靠、可扩展”为核心,为金融机构提供从基础能力到场景化应用的全链路智能化解决方案,助力行业从“数字化”向“智能化”深度升级。 06650 AI大模型AI工具合集# 千帆慧金金融大模型# 投研分析大模型# 金融行业垂直大模型
GPT-4o mini GPT-4o Mini 是 OpenAI 最新推出的小型智能模型,专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出,响应速度极快,适用于实时应用场景。 06600 AI大模型AI工具合集# GPT-4o mini# GPT-4o mini模型# OpenAI 小型模型
AnimateZero AnimateZero是腾讯AI团队发布的一款AI视频生成模型,通过改进预训练的视频扩散模型(Video Diffusion Models),能够更精确地控制视频的外观和运动,实现从静态图像到动态视频的无缝转换。 06550 AI大模型AI工具合集# AnimateZero# AnimateZero动画生成器# 图像动画化工具
M2UGen M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型,它具备音乐生成、理解和编辑的能力。具体来说,M2UGen可以接收文字、图片、视频或音频作为输入,然后生成与之相匹配的音乐。 06450 AI大模型AI工具合集# M2UGen# M2UGen音乐生成模型# 图像到音乐转换
琴乐大模型 琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型。它可以通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或多轨乐谱。 06400 AI大模型AI工具合集# AI音乐创作大模型# 腾讯琴乐大模型# 自动作曲工具
Google Gemini Google Gemini是由谷歌推出的一款人工智能多模态大模型,于2023年12月6日发布。这个模型具有强大的功能,能够同时识别文本、图像、音频、视频和代码五种类型的信息。它还能理解并生成主流编程语言的高质量代码,如Python、Java、C++,并且进行了全面的安全性评估。 06350 AI大模型AI工具合集# Gemini编程语言生成# Google Bard Gemini# Google DeepMind Gemini
昇思MindSpore 昇思MindSpore是由华为自研的一种适用于端边云场景的全场景深度学习框架,MindSpore提供了友好的设计和高效的执行,旨在提升数据科学家和算法工程师的开发体验,并为Ascend AI处理器提供原生支持,以及软硬件协同优化。 06350 AI大模型AI工具合集# 全场景深度学习框架# 昇思MindSpore
Cherry Studio Cherry Studio 是一个支持多模型服务的AI桌面客户端,支持 Windows、macOS 和 Linux,未来还将支持移动端。用户可以通过Cherry Studio无缝集成多种大型语言模型 (LLM),包括 OpenAI、Anthropic 和 Gemini 等,甚至本地部署的模型,确保数据隐私和安全。 06300 AI大模型AI工具合集# Cherry Studio# 多平台AI客户端
WiseDiag-Z1 WiseDiag-Z1是由杭州智诊科技推出的全科医学通用大语言模型,专为医疗领域设计,具有730亿参数和强大的医学知识库。它在知名的医学大模型主流榜单中名列前茅,适用于大多数复杂场景的健康咨询。 06300 AI大模型AI工具合集# 全科医学AI# 医学大语言模型# 医生助手AI
Tora Tora 是阿里团队推出的一个视频生成模型,能够根据轨迹、图像、文本或其组合,快速生成精确运动控制的视频。它支持多种输入方式,如轨迹、文本和图像,并能生成高分辨率、运动可控的视频。 06250 AI大模型AI工具合集# AI视频生成工具# 文本驱动视频生成# 生成式AI视频工具
VISION XL VISION XL是一款专注于解决视频逆问题的超高清视频修复工具。利用潜在图像扩散模型,VISION XL 高效处理视频去模糊、超分辨率和修复等任务,显著提升视频清晰度。支持多种降质形式和高分辨率重建,保证时间一致性。适用于视频修复、去模糊和超分辨率增强,让用户轻松实现高清视频的清晰化处理。 06200 AI大模型AI工具合集# AI视频修复# VISION XL# 一键视频清晰化
讯飞星辰MaaS平台 科大讯飞面向开发者打造的智能化模型精调服务平台,构建起贯穿 “数据 - 模型 - 服务” 全链路的工程化解决方案。平台提供数据增强处理、模型精调优化、效果量化评估及一键部署的的端到端开发能力;同时兼容主流开源模型生态,支持第三方模型托管。基于自研分布式训练架构与智能算力调度系统,结合 LoRA 等高效参数优化技术,平台实现大模型定制化开发... 06200 AI大模型AI工具合集# MCP Server托管# 星辰MaaS# 智能化模型精调平台
腾讯混元3D 腾讯混元3D,全称为 Hunyuan3D-1.0,是腾讯推出的首个同时支持文生和图生的3D开源模型,专门解决现有3D生成模型在生成速度和泛化能力方面的不足。该模型采用了基于Diffusion 技术的架构,能够同时支持文本生成和图像生成3D资产。 06150 AI大模型AI工具合集# 3D开源模型# Hunyuan3D-1.0# 快速3D资产生成
Boximator Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动,从而为用户创造独特的视频场景提供了灵活的运动控制。 06050 AI大模型AI工具合集# AI动画生成器# AI视频编辑工具# Boximator
Yi大模型 Yi大模型是由李开复博士领导的AI公司“零一万物”发布的一款开源的中英双语预训练大模型。这个模型在多个性能指标上取得了国际最佳性能认可,被称为“全球最强开源模型”。Yi-34B模型特别之处在于它拥有全球最长的200K上下文窗口,能够处理40万汉字的超长文本输入,这在语言模型中是非常重要的,因为它对于理解和生成与特定上下文相关的文本至关重要... 05900 AI大模型AI工具合集# Yi大模型# 中英双语预训练大模型# 多模态人工智能大模型
Gen-3 Alpha Gen-3 Alpha是Runway公司开发的一款先进的AI视频生成模型。它能够根据用户的输入(如文本描述、图像或视频片段)创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。 05850 AI大模型AI工具合集# AI视频创作工具# AI视频编辑控制# Gen-3 Alpha AI视频生成
序列猴子 序列猴子是出门问问自研的一款大语言模型,它以语言为核心的能力体系涵盖了知识、对话、数学、逻辑、推理和规划等六个维度。 05800 AI大模型AI工具合集# 大语言模型应用场景# 序列猴子AI创作平台# 序列猴子大模型
NotaGen NotaGen是由中央音乐学院与清华大学等机构联合研发的AI音乐生成模型,专注于生成高质量古典音乐乐谱,同时支持流行音乐创作。作为开源项目,其目标是推动音乐与人工智能的深度融合,为专业作曲家、教育机构及音乐爱好者提供创作辅助工具。 05700 AI大模型AI工具合集# AI古典音乐生成模型# 多风格乐谱生成平台# 开源AI作曲工具
书生·浦语 InternLM 书生·浦语 InternLM 是由商汤科技与上海AI实验室联合香港中文大学和复旦大学共同开发的新一代大型语言模型。它是在过万亿token数据上训练的多语千亿参数基座模型,具有较高的知识水平,尤其在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀。 05600 AI大模型AI工具合集# 书生·浦语# 书生·浦语 InternLM# 多语言AI模型
星流图像大模型 星流图像大模型由 LiblibAI 发布的一款自研图像大模型,名为 Star-3 Alpha。该模型基于业界领先的 F.1 基础算法架构训练而成,辅以全球最大的 LORA 增强模型库及不断进化的 AI 图像控制能力。在图像精准度、色彩表现力、美学捕捉的细腻表达等方面实现了显著的飞跃,成为新的业界标杆。 05500 AI大模型AI工具合集# AI去除背景# AI生图# Star-3 Alpha
Goku Goku是一个基于流生成的视频生成基础模型,由香港大学和字节跳动研究团队共同开发。Goku 模型主要用于生成高质量的视频内容,尤其在广告和营销场景中表现尤为出色。 05500 AI大模型AI工具合集# 图像到视频生成# 多模态视频生成# 视频生成模型
火山方舟大模型 火山方舟是一个由火山引擎推出的大模型服务平台,面向企业提供模型精调、评测、推理等全方位的平台服务。集成了国内多个优秀的大模型,如 MiniMax、智谱 AI、复旦 MOSS 等,覆盖了自然语言处理、计算机视觉、语音识别等多个领域。火山方舟旨在为大模型的开发、应用、运营提供一站式的解决方案,降低大模型使用的门槛,推动大模型的产业化和普及。 05300 AI大模型AI工具合集# 大模型服务平台# 火山方舟# 火山方舟大模型
Segment Anything Segment Anything是一个基于深度学习的图像分割模型,它可以根据用户的输入提示(如点或框)生成高质量的物体遮罩。它可以用于为图像中的任何物体生成遮罩,无论是常见的物体(如人、车、猫等),还是罕见的物体(如火箭、恐龙、魔法棒等)。 05250 AI大模型AI工具合集# 图像分割模型# 图像分割模型SAM# 图像分割模型有哪些
PengChengStarling PengChengStarling是由 PengCheng Labs 开发的多语言自动语音识别工具,支持中文、英语、俄语、越南语、日语、泰语、印度尼西亚语和阿拉伯语。相比 Whisper-Large v3,PengChengStarling 的模型仅占其 20% 大小,但推理速度提高了 7 倍,且流式语音识别效果卓越。 05000 AI大模型AI工具合集# PengChengStarling# 实时流式语音识别# 开源语音识别模型
Outfit Anyone Outfit Anyone是阿里巴巴推出的一种虚拟试穿技术,它可以让用户在照片上穿上任何衣服。利用先进的人工智能和机器学习技术,提供高质量和细节一致的虚拟试穿效果。它可以适应不同的姿势和身材,甚至可以在动漫角色上试穿服装。 04950 AI大模型AI工具合集# Outfit Anyone AI# 虚拟试穿开源代码# 虚拟试穿技术