gemma 3 1b it qat 4bit

Name: gemma 3 1b it qat 4bit
Rating: 0.9 (4 reviews)

by mlx-community

Open source · 86k downloads · 4 likes

0.9

(4 reviews)ChatAPI & Local

About

Le modèle Gemma 3 1B IT QAT 4bit est une version optimisée et quantifiée du modèle Gemma 3 1B IT, conçue pour fonctionner efficacement sur des appareils aux ressources limitées. Il excelle dans la compréhension et la génération de texte en temps réel, offrant des réponses précises et naturelles pour des tâches variées comme les conversations, la synthèse d’informations ou l’assistance à la rédaction. Grâce à sa quantification 4 bits, il réduit significativement l’empreinte mémoire tout en maintenant une bonne qualité de sortie, ce qui le rend particulièrement adapté aux environnements mobiles ou embarqués. Ce modèle se distingue par sa capacité à allier performance et légèreté, idéal pour des déploiements rapides sans sacrifier l’efficacité. Ses cas d’usage incluent les chatbots, les outils d’aide à la décision ou les applications nécessitant une IA réactive et peu gourmande en ressources.

Documentation

mlx-community/gemma-3-1b-it-qat-4bit

The Model mlx-community/gemma-3-1b-it-qat-4bit was converted to MLX format from google/gemma-3-1b-it-qat-q4_0 using mlx-lm version 0.22.5.

Use with mlx

Bash

pip install mlx-lm

Python

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/gemma-3-1b-it-qat-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

response = generate(model, tokenizer, prompt=prompt, verbose=True)

Capabilities & Tags

transformerssafetensorsgemma3_texttext-generationmlxconversationaltext-generation-inferenceendpoints_compatible4-bit

Links & Resources