par Qwen
Open source · 323k downloads · 70 likes
Le modèle Qwen3 1.7B Base est une version allégée de la famille Qwen3, conçue pour offrir des capacités avancées de traitement du langage naturel. Entraîné sur un corpus multilingue de 36 000 milliards de tokens, il couvre 119 langues et excelle dans des domaines variés comme la programmation, les sciences, le raisonnement logique et la compréhension de textes longs. Grâce à une architecture optimisée et à un entraînement en trois phases, il combine stabilité, performance et une meilleure gestion des contextes étendus jusqu’à 32 000 tokens. Idéal pour des applications nécessitant une compréhension fine du langage, il se distingue par son équilibre entre efficacité et polyvalence, tout en restant accessible pour des déploiements légers.
Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models. Building upon extensive advancements in training data, model architecture, and optimization techniques, Qwen3 delivers the following key improvements over the previously released Qwen2.5:
Qwen3-1.7B-Base has the following features:
For more details, including benchmark evaluation, hardware requirements, and inference performance, please refer to our blog, GitHub, and Documentation.
The code of Qwen3 has been in the latest Hugging Face transformers and we advise you to use the latest version of transformers.
With transformers<4.51.0, you will encounter the following error:
KeyError: 'qwen3'
Detailed evaluation results are reported in this 📑 blog.
If you find our work helpful, feel free to give us a cite.
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}