新InstructAvatar InstructAvatar是一个先进的AI框架,它使用自然语言界面来控制2D头像的情绪和面部动作。这个系统允许用户通过文本指令来精细控制头像的表情和运动,从而生成具有情感表现力的视频。 01,1350 AI大模型AI工具合集# 2D头像动作同步# AI动态头像设计# AI头像互动
新MotionGen MotionGen 是由元象科技推出的创新 3D 动作生成模型。通过结合大模型、物理仿真和强化学习等前沿算法,简化 3D 动画制作过程。用户只需输入简单的文本指令,即可快速生成逼真、流畅且复杂的 3D 动作。无论是动画、游戏、电影还是虚拟现实行业,MotionGen 都能显著提高创作效率,降低制作成本。 01,0650 AI大模型AI工具合集# 3D 动画制作工具# 3D动作生成模型# MotionGen 3D 动作生成
新GPT智库 GPT智库是一款强大的人工智能大模型综合应用,提供互联网境外访问绿色通道、汇聚了全球顶尖的人工智能大模型和学术资源。它具备智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能,为科研院所、新闻媒体、高校和政府部门提供安全、合规、可控的全球一流人工智能服务。 01,0650 AI大模型AI工具合集# GPT智库# 大模型应用平台
新LTX Video LTX Video是由 Lightricks公司推出的首个REAL-TIME AI视频生成开源模型。它基于 DiT (Diverse Image Transformer) 架构,能够实时生成高质量的视频。LTX Video 能够以 24 FPS 和 768x512 分辨率生成视频,生成速度比观看速度还要快。 01,0550 AI大模型AI工具合集# LTX Video# 开源视频工具
新可灵大模型 可灵大模型是快手AI团队自研的一款视频生成大模型,采用类似Sora的技术路线,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。 01,0500 AI大模型AI工具合集# 1080P高清视频生成# AI视频生成器# ai视频生成工具有哪些
新MagicVideo-V2 MagicVideo-V2是字节跳动公司团队开发的一款AI视频生成模型和框架。它通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块到一个端到端的视频生成流程中,可以生成高保真和美观的视频,并实现高分辨率视觉质量与流畅运动的一致性。 01,0400 AI大模型AI工具合集# MagicVideo-V2# MagicVideo-V2视频生成模型# 文本到图像模型
新Video-LLaVA Video-LLaVA是由北京大学ChatLaw课题组开发的一款视频问答模型。它基于Transformer架构,能够处理视频和问题,通过自注意力机制来捕捉二者之间的关联信息,并可以回答有关其内容的问题,它准确地描述了这些媒体中的视觉效果。这个模型通过在大量视频数据上进行预训练,使得它能够理解丰富的视频特征和问题语义,进而在视频问答任务上取... 01,0350 AI大模型AI工具合集# AI视频分析# Video-LLaVA模型# 视频摘要生成
新Seed-TTS Seed-TTS是由字节跳动开发的一系列大规模自回归文本到语音(TTS)模型。它能够生成高度自然、与人类语音几乎无法区分的语音。这个模型特别擅长学习语音上下文、说话人相似度和自然度等方面的特征,从而产生质量极高的语音输出。 01,0300 AI大模型AI工具合集# Seed-TTS语音合成# 字节跳动文本到语音# 字节跳动语音大模型
新EMO EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动... 01,0200 AI大模型AI工具合集# AI肖像视频生成工具# Emote Portrait Alive# 单张照片生成视频
新Sora Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。 01,0150 AI大模型AI工具合集# Sora# sora ai# sora openai
新智谱清流 智谱清流是智谱AI推出的企业级AI智能体开发平台,旨在帮助企业快速构建和部署AI应用,实现业务流程的智能化升级。该平台基于智谱全模型矩阵和先进的大模型技术(如GLM系列),提供了一整套工具和服务,支持多种集成方式,满足不同企业的智能化需求。 01,0150 AI大模型AI工具合集# 企业级AI平台# 大模型应用# 智谱清流
新悟道大模型 悟道大模型是智源研究院打造的人工智能模型系统,不仅具备强大的语言理解和生成能力,还能进行逻辑推理、代码分析、图像生成等多种任务,支持多种类型的文本内容生成,如小说、歌词、诗歌、对联等。 09850 AI大模型AI工具合集# 基础模型研究中心# 悟道2.0# 悟道3.0
新CatVTON CatVTON是一款基于扩散模型的虚拟试穿技术工具,旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿,该方法有效地降低了模型复杂度和计算成本,同时保持了高质量的虚拟试衣效果,特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。 09800 AI大模型AI工具合集# AI虚拟试衣# AI虚拟试衣工具# CatVTON
新知海图AI 知海图AI是知乎与面壁智能合作开发的中文大模型,于2023年4月13日开始内测。它的主要功能是对知乎热榜上的问题回答进行要素抽取、观点梳理和内容聚合,以便用户能够更快、更全面地了解知友们讨论的热点与焦点。知海图AI在特定场景中的表现与GPT-4相当,显示出强大的语言理解和内容总结能力。此外,知海图AI的发布也标志着知乎在大语言模型领域的进... 09650 AI大模型AI工具合集# 知乎AI应用# 知乎大模型# 知海图AI
新SeamlessM4T SeamlessM4T是Meta推出的一款多语言和多任务模型,能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言,可以将语音转录为文本,再进行翻译,甚至可以将翻译后的文本转化为语音。 09650 AI大模型AI工具合集# SeamlessM4T模型# 多语言翻译模型# 文本到语音转换
新Harmonai Harmonai是一个开源生成音频工具,专注于开源的生成音频模型,让每个人都能轻松愉快地进行音乐制作。 09500 AI大模型AI工具合集# ai音频模型# Harmonai音频工具# 开源生成音频工具
新文心千帆 文心千帆是百度智能云推出的产业级知识增强大模型,包括基础大模型、任务大模型、行业大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。它能够从海量数据和大规模知识中融合学习,效率更高,效果更好,具备知识增强、检索增强和对话增强的技术特色。 09500 AI大模型AI工具合集# 大模型平台# 文心千帆# 文心千帆大模型平台
新支付宝百宝箱(Tbox) 支付宝推出的零代码AI应用开发平台,用户通过自然语言指令即可快速创建智能体,无需编程基础。平台集成通义千问、蚂蚁百灵等多种大模型,支持对话交互、文本生成、图片生成等核心功能,并实现支付宝小程序、App等多平台一键发布,满足个人用户、商家及开发者的多样化需求。 09500 AI大模型AI工具合集# 支付宝智能体创建工具# 零代码AI开发平台
新MuseTalk MuseTalk是由腾讯推出的一个实时的高质量音频驱动唇形同步模型,能够根据输入的音频信号自动调整数字人物的面部图像,使其唇形与音频内容高度同步,支持多种语言,并实现每秒30帧以上的实时处理速度。这意味着观众可以看到数字人物的口型与声音完美匹配的效果。 09450 AI大模型AI工具合集# Lyra实验室MuseTalk# MuseTalk实时同步# 开源唇形同步模型
新MuseV MuseV是一个由腾讯音乐娱乐旗下的天琴实验室推出的基于SD扩散模型的高保真虚拟人视频生成框架。支持文生视频、图生视频、视频生视频等多种生成方式,能够保持角色一致性,且不受视频长度限制。这意味着用户可以通过MuseV轻松地将文本、图像或现有视频转换成高质量的虚拟人视频,无需担心角色形象的不统一或视频时长的限制。 09400 AI大模型AI工具合集# ai数字人视频# AI数字人视频生成# MuseV
新Face Adapter Face Adapter 是一种专门为预训练的扩散模型设计的适配器,主要用于面部重演和面部交换任务。它能够实现高精度和高保真度的面部编辑,提供精细的个体识别和属性控制功能。 09400 AI大模型AI工具合集# AI换脸模型# Face Adapter# 面部交换
新BuboGPT BuboGPT是字节跳动推出的一种先进的大型语言模型(LLM),它具有将文本、图像和音频等多模态输入进行整合的能力,并且具备将回复与视觉对象进行对接的独特功能,可以执行跨模态交互并做到对多模态的细粒度理解。这显示出BuboGPT在对齐或未对齐的任意图像音频数据理解方面有着出色的对话能力。 09350 AI大模型AI工具合集# BuboGPT# BuboGPT大型语言模型# 多模态理解与对话
新PixelDance PixelDance是由字节跳动开发的一款高动态视频生成模型,它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令(针对视频片段的首尾帧)和文本指令,使得生成的视频不仅视觉上丰富,而且动作细节丰富,能够展现出高度的动态性。 09300 AI大模型AI工具合集# PixelDance# PixelDance视频生成模型# 图像指令视频生成
新云雀大模型 云雀大模型是字节跳动公司开发的一款大规模预训练语言模型。该模型采用 Transformer 架构,它能够处理多种自然语言处理任务,如聊天、绘画、写作和学习。云雀大模型利用了大量的数据进行训练,包括文本、图像、视频和音频等,以学习丰富的语言知识和语境信息。此外,它还具有视频内容理解能力,能够识别视频中的对象、场景和情感等关键要素,为多模态任... 09150 AI大模型AI工具合集# AI智能体# 云雀大模型# 云雀语言模型
新UniVG UniVG是百度推出的一种统一模态视频生成系统。它能够处理多种输入模态,如文本和图像,并生成与输入语义高度一致的视频。UniVG采用了多条件交叉注意力技术和偏置高斯噪声方法,以提高生成视频的质量和保留原始内容。 09150 AI大模型AI工具合集# UniVG视频生成# UniVG视频生成系统# 文本图像视频生成
新灵境矩阵 灵境矩阵是百度推出的一个基于文心大模型的智能体(Agent)平台。它支持开发者根据自己的行业领域和应用场景,选择不同的开发方式来构建产品,以适应大模型时代的需求。开发者可以通过低成本的prompt编排方式来开发智能体,同时平台还提供了流量分发路径,帮助开发者完成商业闭环。 09050 AI大模型AI工具合集# ai灵境# AI灵境平台# 一言官方智能体开发平台
新53AI 53AI是一个开箱即用的企业大模型应用平台,致力于帮助企业快速部署和利用大型语言模型(LLMs),提供企业大模型落地应用、业务智能化改造、私有模型定制和大模型咨询服务。通过 53AI,企业可以轻松实现业务流程的智能化,提高运营效率和竞争力。它支持私有云部署,帮助企业实现大模型的知识库建设、模型训练和智能体开发,从而将AI技术应用于企业的各... 09050 AI大模型AI工具合集# 53AI# 企业大模型平台# 企业知识库建设
新魔搭ModelScope社区 ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单! 08550 AI大模型AI工具合集# AI模型社区# 机器学习模型# 魔搭AI社区
新扣子空间 字节跳动推出的自动化AI平台,主打"一句话完成任务"功能。用户无需填写专业提示词、选择模板、模型或配置工具插件,提交任务后系统自动执行并返回结果。在扣子空间中,你可以与各类AI Agent协同工作。 08550 AI大模型AI工具合集# AI智能体协同平台# 智能协同办公平台
新Ferret-UI Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态AI大语言模型。它专为增强对移动端用户界面(UI)屏幕的理解而设计,具备引用、定位和推理功能。这个模型能够理解手机屏幕上的内容并执行任务,专注于移动端和用户交互。 08350 AI大模型AI工具合集# Ferret-UI# 智能UI交互助手# 智能UI设计助手