AI/EXPLORER
OutilsCatégoriesSitesLLMsComparerQuiz IAAlternativesPremium
—Outils IA
—Sites & Blogs
—LLMs & Modèles
—Catégories
AI Explorer

Trouvez et comparez les meilleurs outils d'intelligence artificielle pour vos projets.

Fait avecen France

Explorer

  • ›Tous les outils
  • ›Sites & Blogs
  • ›LLMs & Modèles
  • ›Comparer
  • ›Chatbots
  • ›Images IA
  • ›Code & Dev

Entreprise

  • ›Premium
  • ›À propos
  • ›Contact
  • ›Blog

Légal

  • ›Mentions légales
  • ›Confidentialité
  • ›CGV

© 2026 AI Explorer·Tous droits réservés.

AccueilLLMsQwen3 Coder Next NVFP4

Qwen3 Coder Next NVFP4

par GadflyII

Open source · 196k downloads · 40 likes

2.0
(40 avis)CodeAPI & Local
À propos

Qwen3 Coder Next NVFP4 est une version quantifiée du modèle Qwen3-Coder-Next, optimisée pour une utilisation efficace des ressources tout en conservant des performances élevées. Conçu pour les développeurs et les environnements nécessitant une grande capacité de traitement, il excelle dans la compréhension et la génération de code, ainsi que dans l'analyse de textes techniques. Le modèle supporte des contextes extrêmement longs, jusqu'à 128 000 tokens, ce qui le rend adapté aux projets complexes ou aux analyses de vastes ensembles de données. Sa quantification NVFP4 permet une exécution plus rapide et moins gourmande en mémoire, tout en restant compatible avec les outils modernes comme vLLM. Ce modèle se distingue par son équilibre entre performance, accessibilité et flexibilité, idéal pour les environnements professionnels ou les infrastructures limitées en ressources.

Documentation

Note: If you have a multi-GPU SM120 Blackwell system (RTX 50/Pro), try my vLLM fork to resolve P2P / TP=2 issues (Pending PR into upstream).

https://github.com/Gadflyii/vllm/tree/main

Qwen3-Coder-Next-NVFP4

NVFP4 quantized version of Qwen/Qwen3-Coder-Next (80B-A3B).

Model Details

PropertyValue
Base ModelQwen/Qwen3-Coder-Next
ArchitectureQwen3NextForCausalLM (Hybrid DeltaNet + Attention + MoE)
Parameters80B total, 3B activated per token
Experts512 total, 10 activated + 1 shared
Layers48
Context Length262,144 tokens (256K)
QuantizationNVFP4 (FP4 weights + FP4 activations)
Size45GB (down from ~149GB BF16, 70% reduction)
Formatcompressed-tensors

Quantization Details

Quantized using llmcompressor 0.9.0.1.

Python
NUM_CALIBRATION_SAMPLES = 20
MAX_SEQUENCE_LENGTH = 2048
DATASET = "HuggingFaceH4/ultrachat_200k" (train_sft)
moe_calibrate_all_experts = True

# Layers kept in BF16
ignore = [
    "lm_head",
    "re:.*mlp.gate$",               # MoE router gates
    "re:.*mlp.shared_expert_gate$", # Shared expert gates
    "re:.*linear_attn.*",           # DeltaNet linear attention
]

Benchmark Results

MMLU-Pro

ModelAccuracyDelta
BF1652.90%-
NVFP451.27%-1.63%

Context Length Testing

Successfully tested up to 128K tokens with FP8 KV cache (Not enough VRAM to test any higher context).

Usage with vLLM

Requires vLLM with NVFP4 support (0.16.0+), Transformers 5.0.0+

Bash
#vllm Serving
vllm serve GadflyII/Qwen3-Coder-Next-NVFP4 \
    --tensor-parallel-size 2 \
    --max-model-len 131072 \
    --kv-cache-dtype fp8

License

Apache 2.0 (same as base model)

Acknowledgments

  • Qwen Team for the base model
  • RedHatAI for the quantization approach reference
  • vLLM Project for llmcompressor
Liens & Ressources
Spécifications
CatégorieCode
AccèsAPI & Local
LicenceOpen Source
TarificationOpen Source
Note
2.0

Essayer Qwen3 Coder Next NVFP4

Accédez directement au modèle