Qwen3 Embedding 0.6B 4bit DWQ

par mlx-community

Open source · 92k downloads · 7 likes

1.1

(7 avis)ChatAPI & Local

À propos

Le modèle Qwen3 Embedding 0.6B 4bit DWQ est une version optimisée et allégée du modèle Qwen3 Embedding, spécialement conçue pour générer des représentations vectorielles de texte (embeddings) de manière efficace. Grâce à sa taille réduite et à sa quantification 4 bits, il offre un bon compromis entre performance et ressources nécessaires, tout en conservant une qualité élevée pour les tâches de traitement du langage naturel. Ses principales capacités incluent la génération d'embeddings pour des textes courts ou longs, adaptés à des applications comme la recherche sémantique, la classification de documents ou la similarité textuelle. Ce modèle se distingue par sa légèreté et sa compatibilité avec les environnements à ressources limitées, tout en restant performant pour des usages variés. Il est particulièrement utile pour les développeurs cherchant une solution d'embedding rapide et économique sans sacrifier la précision.

Documentation

mlx-community/Qwen3-Embedding-0.6B-4bit-DWQ

This model mlx-community/Qwen3-Embedding-0.6B-4bit-DWQ was converted to MLX format from Qwen/Qwen3-Embedding-0.6B using mlx-lm version 0.24.1.

Use with mlx

Bash

pip install mlx-lm

Python

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Qwen3-Embedding-0.6B-4bit-DWQ")

prompt = "hello"

if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

response = generate(model, tokenizer, prompt=prompt, verbose=True)

Liens & Ressources