Tora Tora 是阿里团队推出的一个视频生成模型,能够根据轨迹、图像、文本或其组合,快速生成精确运动控制的视频。它支持多种输入方式,如轨迹、文本和图像,并能生成高分辨率、运动可控的视频。 01,6150 AI大模型AI工具合集# AI视频生成工具# 文本驱动视频生成# 生成式AI视频工具
Mini-Gemini Mini-Gemini是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs),由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs),从2B到34B。为了增强视觉token,该框架建议在不增加视觉token数量的情况下,利用额外的视觉编码器进行高分辨率细化... 01,6050 AI大模型AI工具合集# Mini-Gemini# Mini-Gemini框架# 多模态视觉语言模型
CineMaster CineMaster是一个3D感知和可控的文本到视频生成框架,旨在帮助用户创建高质量的电影视频。该框架通过两个阶段的工作流程,赋予用户专业电影导演般的控制力,允许他们在 3D 空间中精确地放置场景中的对象,并灵活地操控对象和摄像机。 01,6050 AI大模型AI工具合集# 3D感知视频生成# 创意视频生成工具# 文本到视频生成
甲骨文AI协同平台-殷契文渊 殷契文渊是一个甲骨文AI协同平台,它提供了丰富的甲骨文资料库,包括图片、释文、研究论文等。利用人工智能技术,帮助用户更高效地进行甲骨文的自动识别和解读。 01,6000 AI大模型AI工具合集# AI甲骨文字识别# 殷契文渊# 殷契文渊 AI协同平台
Magi Magi 的模型是一个可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。 01,5900 AI大模型AI工具合集# Magi# Magi模型# 漫画转录成文字
Animate Anyone DreaMoving是一种基于扩散模型打造的可控视频生成框架,通过图文就能制作高质量人类跳舞视频。用户只需上传一张人像,以及一段提示词,就能生成对应的视频,而且改变提示词,生成的人物的背景和身上的衣服也会跟着变化。简单来说就是,一张图、一句话就能让任何人或角色在任何场景里跳舞。 01,5850 AI大模型AI工具合集# AI动画生成工具# AI驱动的角色动画# Animate Anyone
Monica bots Monica Bots是一款基于先进AI模型(如 GPT-4、Claude、Gemini 等)的多功能AI助手,能助力用户快速创建和部署智能助手(Bots)的平台,Monica Bots支持跨平台使用,包括浏览器插件(Chrome、Edge、Safari)、桌面端(Windows、macOS)和移动端(iOS、Android)。它集成了聊... 01,5800 AI大模型AI工具合集# Monica Bots# 无需编程创建智能体# 智能体构建平台
S2V.AI S2V.Ai是由MiniMax公司推出的一项创新AI视频生成技术,通过S2V-01模型,用户只需上传一张图片,就能将图片中的主体转化为视频中的角色,并实现高度一致性和自然过渡。这项技术为用户提供了快速、低成本、高质量的视频生成解决方案。 01,5700 AI大模型AI工具合集# ai视频生成# AI视频生成模型# MiniMax AI模型
Hyper-SD Hyper-SD 是字节跳动推出的一种先进图像生成框架,结合了轨迹分段一致性蒸馏(TSCD)和人类反馈学习(RLHF),显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD,用户可以在 1 到 8 步的推理过程中生成高质量的图像,极大地提高了生成速度和效率。 01,5600 AI大模型AI工具合集# Hyper-SD# Hyper-SD 图像生成# 字节跳动 Hyper-SD
Step-Video-T2V Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。 01,5600 AI大模型AI工具合集# Step-Video-T2V开源模型# Text-to-Video模型# 多模态视频生成模型
Etna模型 Etna大模型是七火山科技推出的一个文生视频的AIGC模型,它能够根据简短的文本描述生成相应的视频内容。七火山科技发布的Etna文生视频模型支持生成视频时长达到8~15秒,每秒可达60帧,分辨率最高可达4K(3840*2160),画面细腻逼真。 01,5400 AI大模型AI工具合集# AI视频创作# Etna大模型# Etna模型
妙笔 妙笔是阿里巴巴最新开源的中文文生图模型,它与经典的Stable Diffusion 1.5版本结构相同,兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作,生成的图像效果逼真。例如,输入“枯藤老树昏鸦,小桥流水人家。水墨画。”,妙笔能够理解诗句中的意境并生成相应的图像。 01,5400 AI大模型AI工具合集# AI绘图工具# 中文文本转图像# 妙笔
商量拟人大模型 商量拟人大模型是商汤科技推出的一款AI拟人大模型,它支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能,可实现行业领先的角色对话、人设及剧情推动能力。该模型广泛应用于情感陪伴、影视/动漫/网文IP角色、明星/网红/艺人AI分身、语言角色扮演游戏等拟人对话场景。 01,5300 AI大模型AI工具合集# AI情感陪伴# AI拟人大模型# AI角色扮演游戏
TangoFlux TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。 01,5250 AI大模型AI工具合集# TangoFlux# TTA生成模型# 开源音频生成模型
PixArt-Σ PixArt-Σ是一个由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发的扩散变换器模型(DiT),专门用于4K分辨率的文本到图像生成。 01,5150 AI大模型AI工具合集# 4K分辨率图像生成# 4K图像生成# Diffusion Transformer
NineF AI NineF AI 是一站式免费主流 AI 大模型集成平台,集成了 GPT、Claude、Llama 等全球顶尖 AI 模型,提供多角度智能解答,助您提升工作效率和决策准确性。界面简洁直观,支持图片和文档上传,满足各类创作和研究需求,是激发创新灵感的理想人工智能助手。 01,5150 AI大模型AI工具合集# AI 大模型集成平台# NineF AI
言犀 言犀是京东自营智能人机交互平台,助力企业服务数智化转型。以AI技术驱动,从文字、语音到多模态交互,从对话智能到情感智能,聚焦体验、效率与转化,旨在打造新一代智能人机交互平台,面向不同行业和客户场景助力企业服务和营销实现数智化转型升级。 01,5100 AI大模型AI工具合集# 智能人机交互平台# 言犀
光语金帆 光语金帆是由无限光年公司推出的金融大模型,结合了顶尖的人工智能技术和人才资源,旨在构建超越客户期望的人工智能生成内容(AIGC)产品组合,推动金融行业生产力和用户交互体验的全面提升,实现金融服务的智能化、公平化和普惠化。 01,5100 AI大模型AI工具合集# AI财报点评# 光语金帆# 智能投研工具
MoonShot AI MoonShot AI(又名“月之暗面AI”)是一家致力于人工智能技术创新的公司,专注于开发和优化大型AI模型。我们的先进人工智能预测技术正改变未来。从股市分析到疫苗研发,我们的大模型技术提供了前所未有的准确性和速度。 01,5050 AI大模型AI工具合集# MoonShot AI
昇思MindSpore 昇思MindSpore是由华为自研的一种适用于端边云场景的全场景深度学习框架,MindSpore提供了友好的设计和高效的执行,旨在提升数据科学家和算法工程师的开发体验,并为Ascend AI处理器提供原生支持,以及软硬件协同优化。 01,4950 AI大模型AI工具合集# 全场景深度学习框架# 昇思MindSpore
PuLID PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,能够在无需调整模型的情况下轻松生成个性化写真。该技术能够保持高身份(ID)保真度,同时最大限度地减少对原始图像风格和背景的干扰,支持用户通过文本提示轻松编辑图像,生成逼真且个性化的图像结果。 01,4950 AI大模型AI工具合集# PuLID# 高保真图像生成
星流图像大模型 星流图像大模型由 LiblibAI 发布的一款自研图像大模型,名为 Star-3 Alpha。该模型基于业界领先的 F.1 基础算法架构训练而成,辅以全球最大的 LORA 增强模型库及不断进化的 AI 图像控制能力。在图像精准度、色彩表现力、美学捕捉的细腻表达等方面实现了显著的飞跃,成为新的业界标杆。 01,4950 AI大模型AI工具合集# AI去除背景# AI生图# Star-3 Alpha
Hallo Hallo是一个百度开源的AI对口型人脸视频生成框架,用户只需提供一段音频和所选人像,它利用人工智能技术,让图片中的人物能够根据语音的变化做出相应的面部表情和嘴唇动作。 01,4700 AI大模型AI工具合集# ai对口型人脸视频生成框架# Hallo人脸视频生成技术
AnyText AnyText是阿里云开源的一种基于扩散的多语言视觉文本生成和编辑模型,它利用了深度学习、自然语言处理、计算机视觉等技术,实现了对图像中文本的检测、识别、生成和编辑。 01,4600 AI大模型AI工具合集# 文生图模型# 文生图模型 开源# 视觉文本生成
Grok-1 Grok-1是马斯克旗下AI创企xAI发布的一款开源AI大模型。它是一个混合专家(Mixture-of-Experts,MOE)大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿,是迄今参数量最大的开源大语言模型。旨在用作聊天机器人背后的引擎,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。 01,4600 AI大模型AI工具合集# Grok-1# Grok-1人工智能# Grok-1参数量最大的开源模型
沃研Turbo大模型 沃研Turbo是由沃恩智慧公司专为大学生打造的科研大模型。它集成了多项科研辅助功能,包括期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐和AI降重。通过多模态AIGC技术,沃研Turbo能够快速响应科研需求,提升科研效率。用户只需在网页上上传论文、文本或链接,即可享受便捷的科研辅助服务。沃研Turbo致力于简化科研过程... 01,4600 AI大模型AI工具合集# 沃研Turbo大模型# 沃研Turbo科研大模型# 科研大模型
EduChat EduChat是一个教育领域的对话大模型,提供开放问答、作文批改、启发式教学和情感支持等教育特色功能,助力实现因材施教、公平公正、富有温度的智能教育。 01,4550 AI大模型AI工具合集# EduChat# 教育对话大模型# 教育问答
华知大模型 华知大模型是由同方知网与华为合作开发的中华知识大模型。它是一个专注于知识服务与科研行业的全栈自主可控的大模型,旨在覆盖政企文教等多个行业场景,并提供30多项通用能力体系。华知大模型的核心特色能力包括智能写作、学术搜问、AI伴读、标准智能问答、机构业务知识智能问答以及图书馆读者智能服务系统等。 01,4500 AI大模型AI工具合集# AI伴读工具# 中华知识大模型# 华知大模型
Magic Clothing Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。 01,4500 AI大模型AI工具合集# Garment-Driven Image Synthesis# Magic Clothing# 控制性服装驱动图像合成
GPT-4o mini GPT-4o Mini 是 OpenAI 最新推出的小型智能模型,专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出,响应速度极快,适用于实时应用场景。 01,4300 AI大模型AI工具合集# GPT-4o mini# GPT-4o mini模型# OpenAI 小型模型