SEED-Story

5个月前发布 2,955 0 0

SEED-Story是一个腾讯开源的基于大型语言模型（MLLM）的多模态长篇故事生成模型，它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事，SEED-Story都能提供高质量、多模态的内容，助力创意产业的发展。

收录时间：

2025-07-06

打开网站手机查看

AI大模型 AI工具合集 # 叙事文本图片生成 # 多模态故事生成 # 多模态长篇故事生成模型 # 腾讯SEED-Story

SEED-Story

SEED-Story

SEED-Story的功能特点

基于大型语言模型（MLLM）：SEED-Story利用先进的MLLM技术，能够从用户提供的图像和文本作为起点，生成包含丰富、连贯的叙事文本以及风格一致的图像的多模态长篇故事。
生成内容丰富：生成的故事不仅包含文字描述，还包含与文字内容相匹配、风格一致的图像，增强了故事的沉浸感和表现力。
保持一致性：在生成过程中，SEED-Story能够确保角色形象和故事风格的一致性，使得整个故事更加连贯和吸引人。

SEED-Story的技术原理

SEED-Story是一个基于大型语言模型（MLLM）的多模态长篇故事生成模型，其技术原理主要包括以下几个阶段：

1.预训练阶段：

在第一阶段，SEED-Story预训练了一个基于SD-XL的去标记化器（de-tokenizer）。该去标记化器通过接受预训练的视觉变换器（ViT）的特征作为输入来重建图片。

这一阶段的目标是使模型能够理解和生成高质量的视觉内容。

2.序列训练阶段：

在第二阶段，模型采样一个随机长度的交错图像-文本序列。通过对目标图像的ViT特征和可学习查询的输出隐藏状态之间的下一个词预测和图像特征回归来训练大型语言模型（MLLM）。

这一阶段的目标是使模型能够生成连贯的叙事文本，并在文本和图像之间建立关联。

3.调优阶段：

在第三阶段，从MLLM回归得到的图像特征被输入到去标记化器中，以调整SD-XL。

这一阶段的目标是增强生成图片中角色和风格的一致性，使生成的故事内容更加连贯和一致。

通过这三个阶段的训练和调优，SEED-Story能够生成丰富且连贯的叙事文本，并在角色和风格上保持一致的图片，适用于多模态长篇故事生成。

适用场景

小说创作：作家可以使用SEED-Story生成连贯的叙事文本和风格一致的插图，帮助他们快速构思和创作长篇小说。
剧本编写：编剧可以利用SEED-Story生成剧本内容和视觉元素，为电影、电视剧和舞台剧提供创意支持。
视觉故事：艺术家和设计师可以使用SEED-Story生成视觉故事，结合文本和图片，创造出引人入胜的多媒体作品。
教育和培训：教育工作者可以利用SEED-Story生成教育内容和教学材料，帮助学生更好地理解和学习复杂的概念。
广告和营销：营销人员可以使用SEED-Story生成创意广告和营销材料，吸引目标受众的注意力。
游戏开发：游戏开发者可以利用SEED-Story生成游戏剧情和视觉元素，提升游戏的故事性和沉浸感。

数据统计

相关导航

星搭AI

星搭AI - 打造你专属的AI助理和数字员工|AI写营销文案|AI生成文章配图|AI绘画。

VidAU AI

VidAU AI是一个强大的视频和音频生成平台，它能够帮助用户简单地通过产品链接或描述在几分钟内批量生成引人入胜的营销视频，并支持通过逼真的AI数字人以不同的语言和口音作为产品介绍。此外，VidAU AI还提供了丰富的视频编辑功能，如换脸、翻译、字幕翻译、水印或字幕去除、混合等。

金舟AI助手

金舟AI助手是一个基于人工智能和大数据技术的营销内容创作平台，包括短视频拍摄脚本、短视频拍摄灵感、直播带货口播稿、小红书种草文案、微博文案、大众点评评价文案、微信朋友圈文案、电商商品文案、电商海报文案和电商商品好评等。

BibiGPT

BibiGPT是一个在线AI音视频助理工具，可以帮你一键总结和对话任意网页上的音视频内容，比如B站，油管，小红书，抖音，推特等等。它还可以用AI技术给你生成总结，思维导图，字幕列表，AI改写图文，AI对话追问等等。

Wanx 2.1

WanX 2.1是一款AI驱动的视频&图像生成工具，由阿里云开发，专注于文本转视频、图像转视频、物理模拟动画等多模态内容创作。它能帮助用户轻松生成动态视频，提升创作效率，适用于广告、影视、游戏设计等多个领域。

奇妙文

奇妙文是出门问问推出的一款AI写作助理产品，专注于提升用户在四大内容创作场景（职场办公、市场营销、新媒体和创意写作）中的写作效率和创意水平。

RMBG-2.0

RMBG-2.0是由BRIA AI 开发的开源图像背景移除模型，通过先进的卷积神经网络（CNN）实现高精度的前景与背景分离。该模型在经过精心挑选的数据集（包括一般图像、电子商务、游戏和广告内容）上进行了训练，专为大规模企业内容创建的商业用例设计，其准确性、效率和多功能性可以媲美领先的 Source Available 型号。

云猫转码

云猫转码是简单智能、功能齐备的云端音视频工具，网站提供智能字幕、转文字、AI 消音等功能，运用先进的视频和语音 AI 技术，轻松玩转音视频。

暂无评论

暂无评论...