
新Tarsier
Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。
Diffutoon是一种先进的动漫风格渲染技术,它能够将真人视频转换成动漫风格。这个技术由阿里巴巴和华东师范大学的研究人员推出,基于扩散模型的可编辑卡通着色技术。Diffutoon具备内容一致性、高分辨率输出和智能编辑功能,适用于高分辨率和快速运动的视频。