par DeepPavlov
Open source · 37k downloads · 29 likes
Le modèle *rubert base cased sentence* est un encodeur de phrases en russe, spécialement conçu pour générer des représentations vectorielles précises et contextualisées. Il s’appuie sur RuBERT, un modèle de langage pré-entraîné pour le russe, et a été affiné sur des jeux de données de référence comme SNLI et XNLI, traduits ou adaptés pour cette langue. Ses principales capacités incluent la compréhension sémantique, la comparaison de phrases et la classification de similarité, ce qui le rend particulièrement utile pour des tâches comme la recherche d’informations, le clustering de textes ou l’analyse de sentiments. Ce qui le distingue, c’est sa capacité à produire des embeddings robustes pour le russe, optimisés pour des applications nécessitant une fine granularité sémantique. Il se positionne comme un outil performant pour les projets en traitement automatique des langues (NLP) nécessitant une analyse approfondie de textes en russe.
Sentence RuBERT (Russian, cased, 12-layer, 768-hidden, 12-heads, 180M parameters) is a representation‑based sentence encoder for Russian. It is initialized with RuBERT and fine‑tuned on SNLI[1] google-translated to russian and on russian part of XNLI dev set[2]. Sentence representations are mean pooled token embeddings in the same manner as in Sentence‑BERT[3].
[1]: S. R. Bowman, G. Angeli, C. Potts, and C. D. Manning. (2015) A large annotated corpus for learning natural language inference. arXiv preprint arXiv:1508.05326
[2]: Williams A., Bowman S. (2018) XNLI: Evaluating Cross-lingual Sentence Representations. arXiv preprint arXiv:1809.05053
[3]: N. Reimers, I. Gurevych (2019) Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv preprint arXiv:1908.10084