e5 base sts en de

par danielheinz

Open source · 160k downloads · 17 likes

1.6

(17 avis)EmbeddingAPI & Local

À propos

Ce modèle, nommé "e5 base sts en de", est une version spécialisée du modèle multilingue *multilingual-e5-base*, optimisée pour évaluer la similarité sémantique entre des textes en anglais et en allemand. Il a été affiné sur des corpus de paraphrases et de similarité textuelle en allemand, ce qui lui permet de comprendre et de comparer finement les nuances entre les deux langues. Ses principales capacités résident dans l'analyse de la proximité sémantique, utile pour des tâches comme la recherche d'informations multilingues, la détection de paraphrases ou l'évaluation de la cohérence textuelle. Il se distingue par sa précision élevée, comme en témoignent ses scores dépassant 0,9 sur des jeux de données de référence, et par son adaptabilité à des contextes bilingues. Ce modèle est particulièrement adapté aux applications nécessitant une compréhension fine des relations entre textes dans ces deux langues.

Documentation

INFO: The model is being continuously updated.

The model is a multilingual-e5-base model fine-tuned with the task of semantic textual similarity in mind.

Model Training

The model has been fine-tuned on the German subsets of the following datasets:

The training procedure can be divided into two stages:

training on paraphrase datasets with the Multiple Negatives Ranking Loss
training on semantic textual similarity datasets using the Cosine Similarity Loss

Results

The model achieves the following results:

0.920 on stsb's validation subset
0.904 on stsb's test subset

Liens & Ressources