
新Cubox AI
Cubox AI是由苏州怪奇信息科技推出的一个集AI阅读总结和信息收集管理于一体的效率工具,用户可将其作为个人阅读、学习和研究的助手。Cubox旨在将人工智能与阅读工具相结合,帮助用户更高效地处理信息,提高阅读质量,同时节省时间。它利用先进的人工智能技术自动解读文章内容,帮助用户快速了解每日新闻消息、行业动态,高效处理或筛选值得阅读的文章...
SEED-Story是一个腾讯开源的基于大型语言模型(MLLM)的多模态长篇故事生成模型,它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事,SEED-Story都能提供高质量、多模态的内容,助力创意产业的发展。
SEED-Story是一个基于大型语言模型(MLLM)的多模态长篇故事生成模型,其技术原理主要包括以下几个阶段:
1.预训练阶段:
在第一阶段,SEED-Story预训练了一个基于SD-XL的去标记化器(de-tokenizer)。该去标记化器通过接受预训练的视觉变换器(ViT)的特征作为输入来重建图片。
这一阶段的目标是使模型能够理解和生成高质量的视觉内容。
2.序列训练阶段:
在第二阶段,模型采样一个随机长度的交错图像-文本序列。通过对目标图像的ViT特征和可学习查询的输出隐藏状态之间的下一个词预测和图像特征回归来训练大型语言模型(MLLM)。
这一阶段的目标是使模型能够生成连贯的叙事文本,并在文本和图像之间建立关联。
3.调优阶段:
在第三阶段,从MLLM回归得到的图像特征被输入到去标记化器中,以调整SD-XL。
这一阶段的目标是增强生成图片中角色和风格的一致性,使生成的故事内容更加连贯和一致。
通过这三个阶段的训练和调优,SEED-Story能够生成丰富且连贯的叙事文本,并在角色和风格上保持一致的图片,适用于多模态长篇故事生成。