par Qwen
Open source · 1M downloads · 84 likes
Le modèle Qwen3 4B Base est une version allégée de la famille Qwen3, conçue pour offrir des capacités avancées de traitement du langage naturel. Grâce à un entraînement sur un corpus de 36 000 milliards de tokens couvrant 119 langues, il excelle dans la compréhension, la génération de texte et le raisonnement, avec une attention particulière portée aux domaines STEM, à la programmation et aux données multilingues. Son architecture optimisée, incluant des techniques comme le *qk layernorm* et un entraînement en trois phases, lui permet de traiter des contextes longs jusqu’à 32 000 tokens tout en maintenant une grande stabilité. Idéal pour des applications nécessitant une analyse approfondie ou une production de texte nuancé, il se distingue par sa polyvalence et son efficacité, même sur des tâches complexes. Ce modèle convient particulièrement aux développeurs, chercheurs ou entreprises cherchant une solution performante sans recourir à des modèles plus lourds.
Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models. Building upon extensive advancements in training data, model architecture, and optimization techniques, Qwen3 delivers the following key improvements over the previously released Qwen2.5:
Qwen3-4B-Base has the following features:
For more details, including benchmark evaluation, hardware requirements, and inference performance, please refer to our blog, GitHub, and Documentation.
The code of Qwen3 has been in the latest Hugging Face transformers and we advise you to use the latest version of transformers.
With transformers<4.51.0, you will encounter the following error:
KeyError: 'qwen3'
Detailed evaluation results are reported in this 📑 blog.
If you find our work helpful, feel free to give us a cite.
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}