by omni-research
Open source · 86k downloads · 25 likes
Tarsier 7b est un modèle de langage multimodal spécialisé dans la compréhension et la description de vidéos. Il génère des descriptions détaillées et précises à partir de contenus visuels, tout en offrant des capacités avancées de compréhension générale des vidéos. Conçu pour les chercheurs et passionnés en vision par ordinateur et traitement automatique des langues, il excelle notamment dans l'analyse de scènes complexes et la réponse à des questions sur des séquences vidéo. Son entraînement sur des jeux de données variés et volumineux lui permet de traiter aussi bien des tâches de description ouverte que des questions à choix multiples. Ce qui le distingue, c'est sa capacité à allier performance et accessibilité, grâce à une architecture optimisée pour des ressources computationnelles modérées.
Model type: Tarsier-7b is one of the Tarsier family -- an open-source large-scale video-language models, which is designed to generate high-quality video descriptions, together with good capability of general video understanding (Tarsier-34b gains SOTA results on 6 open benchmarks). Base LLM: liuhaotian/llava-v1.6-vicuna-7b
Model date: Tarsier-7b was trained in June 2024.
Paper or resources for more information:
lmsys/vicuna-7b-v1.5 license.
Where to send questions or comments about the model: https://github.com/bytedance/tarsier/issues
Primary intended uses: The primary use of Tarsier is research on large multimodal models, especially video description.
Primary intended users: The primary intended users of the model are researchers and hobbyists in computer vision, natural language processing, machine learning, and artificial intelligence.
Tarsier tasks a two-stage training strategy.
In both stages, we freeze ViT and train all the parameters of projection layer and LLM.
see https://github.com/bytedance/tarsier?tab=readme-ov-file#usage