par Qwen
Open source · 108k downloads · 51 likes
Qwen3 14B Base est un modèle de langage avancé développé par l'équipe Qwen, conçu pour exceller dans une multitude de tâches grâce à une architecture optimisée et un entraînement approfondi. Ce modèle de 14,8 milliards de paramètres, entraîné sur 36 000 milliards de tokens couvrant 119 langues, se distingue par sa capacité à traiter des contextes longs jusqu'à 32 000 tokens, ce qui le rend particulièrement adapté aux applications nécessitant une compréhension étendue. Ses performances sont renforcées par des techniques d'entraînement innovantes, comme un équilibrage global des lots pour les modèles de type MoE et des améliorations architecturales, lui permettant de surpasser son prédécesseur, Qwen2.5, dans des domaines variés tels que le raisonnement logique, les sciences, la programmation et la compréhension multilingue. Idéal pour les développeurs, chercheurs ou entreprises cherchant un outil polyvalent, il s'intègre facilement dans des pipelines d'IA pour automatiser des tâches complexes ou générer du contenu précis. Son approche en trois étapes d'entraînement, combinée à des ajustements hyperparamétriques guidés par des lois d'échelle, garantit une efficacité et une stabilité accrues, faisant de lui un choix robuste pour des applications professionnelles ou académiques.
Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models. Building upon extensive advancements in training data, model architecture, and optimization techniques, Qwen3 delivers the following key improvements over the previously released Qwen2.5:
Qwen3-14B-Base has the following features:
For more details, including benchmark evaluation, hardware requirements, and inference performance, please refer to our blog, GitHub, and Documentation.
The code of Qwen3 has been in the latest Hugging Face transformers and we advise you to use the latest version of transformers.
With transformers<4.51.0, you will encounter the following error:
KeyError: 'qwen3'
Detailed evaluation results are reported in this 📑 blog.
If you find our work helpful, feel free to give us a cite.
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}