par GadflyII
Open source · 196k downloads · 40 likes
Qwen3 Coder Next NVFP4 est une version quantifiée du modèle Qwen3-Coder-Next, optimisée pour une utilisation efficace des ressources tout en conservant des performances élevées. Conçu pour les développeurs et les environnements nécessitant une grande capacité de traitement, il excelle dans la compréhension et la génération de code, ainsi que dans l'analyse de textes techniques. Le modèle supporte des contextes extrêmement longs, jusqu'à 128 000 tokens, ce qui le rend adapté aux projets complexes ou aux analyses de vastes ensembles de données. Sa quantification NVFP4 permet une exécution plus rapide et moins gourmande en mémoire, tout en restant compatible avec les outils modernes comme vLLM. Ce modèle se distingue par son équilibre entre performance, accessibilité et flexibilité, idéal pour les environnements professionnels ou les infrastructures limitées en ressources.
https://github.com/Gadflyii/vllm/tree/main
NVFP4 quantized version of Qwen/Qwen3-Coder-Next (80B-A3B).
| Property | Value |
|---|---|
| Base Model | Qwen/Qwen3-Coder-Next |
| Architecture | Qwen3NextForCausalLM (Hybrid DeltaNet + Attention + MoE) |
| Parameters | 80B total, 3B activated per token |
| Experts | 512 total, 10 activated + 1 shared |
| Layers | 48 |
| Context Length | 262,144 tokens (256K) |
| Quantization | NVFP4 (FP4 weights + FP4 activations) |
| Size | 45GB (down from ~149GB BF16, 70% reduction) |
| Format | compressed-tensors |
Quantized using llmcompressor 0.9.0.1.
NUM_CALIBRATION_SAMPLES = 20
MAX_SEQUENCE_LENGTH = 2048
DATASET = "HuggingFaceH4/ultrachat_200k" (train_sft)
moe_calibrate_all_experts = True
# Layers kept in BF16
ignore = [
"lm_head",
"re:.*mlp.gate$", # MoE router gates
"re:.*mlp.shared_expert_gate$", # Shared expert gates
"re:.*linear_attn.*", # DeltaNet linear attention
]
| Model | Accuracy | Delta |
|---|---|---|
| BF16 | 52.90% | - |
| NVFP4 | 51.27% | -1.63% |
Successfully tested up to 128K tokens with FP8 KV cache (Not enough VRAM to test any higher context).
Requires vLLM with NVFP4 support (0.16.0+), Transformers 5.0.0+
#vllm Serving
vllm serve GadflyII/Qwen3-Coder-Next-NVFP4 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--kv-cache-dtype fp8
Apache 2.0 (same as base model)