Llama 3.2 1B Instruct 4bit

par mlx-community

Open source · 96k downloads · 19 likes

1.6

(19 avis)ChatAPI & Local

À propos

Le modèle Llama 3.2 1B Instruct 4bit est une version optimisée et légère du modèle Llama 3.2, conçue pour fonctionner efficacement sur des appareils locaux avec des ressources limitées. Il excelle dans la compréhension et la génération de texte, répondant de manière précise et contextuelle aux instructions en langage naturel. Ses capacités principales incluent le traitement de conversations, la synthèse d’informations et l’aide à la rédaction, tout en maintenant une qualité comparable aux modèles plus grands. Idéal pour les développeurs, chercheurs ou utilisateurs souhaitant intégrer une IA performante sans dépendre du cloud, il se distingue par sa légèreté et sa rapidité d’exécution. Ce modèle est particulièrement adapté aux applications nécessitant une interaction conversationnelle fluide, comme les assistants virtuels ou les outils d’automatisation de texte.

Documentation

mlx-community/Llama-3.2-1B-Instruct-4bit

The Model mlx-community/Llama-3.2-1B-Instruct-4bit was converted to MLX format from mlx-community/Llama-3.2-1B-Instruct-bf16 using mlx-lm version 0.21.5.

Use with mlx

Bash

pip install mlx-lm

Python

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Llama-3.2-1B-Instruct-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

response = generate(model, tokenizer, prompt=prompt, verbose=True)

Liens & Ressources