AI ExplorerAI Explorer
ToolsCategoriesSitesLLMsCompareAI QuizAlternativesPremium

—

AI Tools

—

Sites & Blogs

—

LLMs & Models

—

Categories

AI Explorer

Find and compare the best artificial intelligence tools for your projects.

Made within France

Explore

  • All tools
  • Sites & Blogs
  • LLMs & Models
  • Compare
  • Chatbots
  • AI Images
  • Code & Dev

Company

  • Premium
  • About
  • Contact
  • Blog

Legal

  • Legal notice
  • Privacy
  • Terms

© 2026 AI Explorer. All rights reserved.

HomeLLMsTarsier 7b

Tarsier 7b

by omni-research

Open source · 86k downloads · 25 likes

1.8
(25 reviews)ChatAPI & Local
About

Tarsier 7b est un modèle de langage multimodal spécialisé dans la compréhension et la description de vidéos. Il génère des descriptions détaillées et précises à partir de contenus visuels, tout en offrant des capacités avancées de compréhension générale des vidéos. Conçu pour les chercheurs et passionnés en vision par ordinateur et traitement automatique des langues, il excelle notamment dans l'analyse de scènes complexes et la réponse à des questions sur des séquences vidéo. Son entraînement sur des jeux de données variés et volumineux lui permet de traiter aussi bien des tâches de description ouverte que des questions à choix multiples. Ce qui le distingue, c'est sa capacité à allier performance et accessibilité, grâce à une architecture optimisée pour des ressources computationnelles modérées.

Documentation

Tarsier Model Card

Model details

Model type: Tarsier-7b is one of the Tarsier family -- an open-source large-scale video-language models, which is designed to generate high-quality video descriptions, together with good capability of general video understanding (Tarsier-34b gains SOTA results on 6 open benchmarks). Base LLM: liuhaotian/llava-v1.6-vicuna-7b

Model date: Tarsier-7b was trained in June 2024.

Paper or resources for more information:

  • github repo: https://github.com/bytedance/tarsier
  • paper link: https://arxiv.org/abs/2407.00634

License

lmsys/vicuna-7b-v1.5 license.

Where to send questions or comments about the model: https://github.com/bytedance/tarsier/issues

Intended use

Primary intended uses: The primary use of Tarsier is research on large multimodal models, especially video description.

Primary intended users: The primary intended users of the model are researchers and hobbyists in computer vision, natural language processing, machine learning, and artificial intelligence.

Training dataset

Tarsier tasks a two-stage training strategy.

  • Stage-1: Multi-task Pre-training on 13M data
  • Stage-2: Multi-grained Instruction Tuning on 500K data

In both stages, we freeze ViT and train all the parameters of projection layer and LLM.

Evaluation dataset

  • A challenging video desription dataset: DREAM-1K
  • Multi-choice VQA: MVBench, NeXT-QA and Egoschema
  • Open-ended VQA: MSVD-QA, MSR-VTT-QA, ActivityNet-QA and TGIF-QA
  • Video Caption: MSVD-Caption, MSRVTT-Caption, VATEX

How to Use

see https://github.com/bytedance/tarsier?tab=readme-ov-file#usage

Capabilities & Tags
transformerssafetensorsllavatext-generationendpoints_compatible
Links & Resources
Specifications
CategoryChat
AccessAPI & Local
LicenseOpen Source
PricingOpen Source
Parameters7B parameters
Rating
1.8

Try Tarsier 7b

Access the model directly