by mlx-community
Open source · 86k downloads · 4 likes
Le modèle Gemma 3 1B IT QAT 4bit est une version optimisée et quantifiée du modèle Gemma 3 1B IT, conçue pour fonctionner efficacement sur des appareils aux ressources limitées. Il excelle dans la compréhension et la génération de texte en temps réel, offrant des réponses précises et naturelles pour des tâches variées comme les conversations, la synthèse d’informations ou l’assistance à la rédaction. Grâce à sa quantification 4 bits, il réduit significativement l’empreinte mémoire tout en maintenant une bonne qualité de sortie, ce qui le rend particulièrement adapté aux environnements mobiles ou embarqués. Ce modèle se distingue par sa capacité à allier performance et légèreté, idéal pour des déploiements rapides sans sacrifier l’efficacité. Ses cas d’usage incluent les chatbots, les outils d’aide à la décision ou les applications nécessitant une IA réactive et peu gourmande en ressources.
The Model mlx-community/gemma-3-1b-it-qat-4bit was converted to MLX format from google/gemma-3-1b-it-qat-q4_0 using mlx-lm version 0.22.5.
pip install mlx-lm
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/gemma-3-1b-it-qat-4bit")
prompt = "hello"
if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True
)
response = generate(model, tokenizer, prompt=prompt, verbose=True)