爱上导航
次级导航
  • 首页
  • 收录投稿
  • 排行榜
      • 未登录
        登录后即可体验更多功能
    • 首页
    • 收录投稿
    • 排行榜
    未登录
    登录后即可体验更多功能

    视频问答模型

    共 2 篇网址
    排序
    发布更新浏览点赞
    Tarsier

    新Tarsier

    Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。
    02050
    AI大模型AI工具合集# Tarsier# 大规模视频语言模型# 视频问答模型
    没有了

    标签云

    Copyright © 2022-2025 爱上导航. All Rights Reserved.  
    反馈
    让我们一起共建文明社区!您的反馈至关重要!