par Qwen
Open source · 270k downloads · 160 likes
Le modèle Qwen3 0.6B Base est une version allégée de la famille Qwen3, conçue pour offrir des capacités avancées de traitement du langage tout en restant accessible. Il s'agit d'un modèle de langage causal, optimisé pour comprendre et générer du texte de manière fluide et cohérente, avec une attention particulière portée à la qualité des données d'entraînement et à l'architecture du modèle. Grâce à un entraînement en trois étapes et une longueur de contexte étendue jusqu'à 32 000 tokens, il excelle dans des tâches variées comme la compréhension, le raisonnement logique, la génération de code ou encore le traitement multilingue. Ses principaux atouts résident dans sa polyvalence, sa stabilité améliorée et son efficacité, le rendant adapté à des usages professionnels ou éducatifs nécessitant une interaction naturelle avec le langage. Que ce soit pour automatiser des réponses, assister dans des projets créatifs ou analyser des documents complexes, ce modèle se distingue par sa capacité à s'adapter à différents contextes tout en maintenant une performance robuste.
Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models. Building upon extensive advancements in training data, model architecture, and optimization techniques, Qwen3 delivers the following key improvements over the previously released Qwen2.5:
Qwen3-0.6B-Base has the following features:
For more details, including benchmark evaluation, hardware requirements, and inference performance, please refer to our blog, GitHub, and Documentation.
The code of Qwen3 has been in the latest Hugging Face transformers and we advise you to use the latest version of transformers.
With transformers<4.51.0, you will encounter the following error:
KeyError: 'qwen3'
Detailed evaluation results are reported in this 📑 blog.
If you find our work helpful, feel free to give us a cite.
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}