par DeepPavlov
Open source · 285k downloads · 126 likes
RuBERT base cased est un modèle de langage avancé spécialement conçu pour le russe, basé sur l'architecture BERT. Entraîné sur des données issues de Wikipedia et de sources d'actualités russes, il excelle dans la compréhension et la génération de texte en russe. Ses principales capacités incluent l'analyse sémantique, la classification de texte et la prédiction de mots manquants, ce qui le rend adapté à des tâches comme le traitement automatique du langage naturel ou les chatbots. Ce modèle se distingue par sa précision sur les nuances linguistiques du russe, notamment grâce à son vocabulaire adapté aux sous-mots spécifiques à cette langue. Il est particulièrement utile pour les entreprises ou chercheurs travaillant avec du contenu en russe, offrant des performances robustes pour des applications variées.
RuBERT (Russian, cased, 12‑layer, 768‑hidden, 12‑heads, 180M parameters) was trained on the Russian part of Wikipedia and news data. We used this training data to build a vocabulary of Russian subtokens and took a multilingual version of BERT‑base as an initialization for RuBERT[1].
08.11.2021: upload model with MLM and NSP heads
[1]: Kuratov, Y., Arkhipov, M. (2019). Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. arXiv preprint arXiv:1905.07213.