par mlx-community
Open source · 96k downloads · 19 likes
Le modèle Llama 3.2 1B Instruct 4bit est une version optimisée et légère du modèle Llama 3.2, conçue pour fonctionner efficacement sur des appareils locaux avec des ressources limitées. Il excelle dans la compréhension et la génération de texte, répondant de manière précise et contextuelle aux instructions en langage naturel. Ses capacités principales incluent le traitement de conversations, la synthèse d’informations et l’aide à la rédaction, tout en maintenant une qualité comparable aux modèles plus grands. Idéal pour les développeurs, chercheurs ou utilisateurs souhaitant intégrer une IA performante sans dépendre du cloud, il se distingue par sa légèreté et sa rapidité d’exécution. Ce modèle est particulièrement adapté aux applications nécessitant une interaction conversationnelle fluide, comme les assistants virtuels ou les outils d’automatisation de texte.
The Model mlx-community/Llama-3.2-1B-Instruct-4bit was converted to MLX format from mlx-community/Llama-3.2-1B-Instruct-bf16 using mlx-lm version 0.21.5.
pip install mlx-lm
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/Llama-3.2-1B-Instruct-4bit")
prompt = "hello"
if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True
)
response = generate(model, tokenizer, prompt=prompt, verbose=True)