par OrdalieTech
Open source · 66k downloads · 52 likes
Solon embeddings large 0.1 est un modèle de pointe en open source spécialisé dans la génération d'embeddings pour le français. Il excelle dans les tâches de similarité textuelle, comme la classification, le réordonnancement et l'évaluation de la similarité sémantique, grâce à des benchmarks rigoureux couvrant neuf évaluations françaises variées. Son approche optimisée, notamment en ajoutant le préfixe "query : " pour les requêtes, améliore significativement ses performances en recherche d'information et en compréhension contextuelle. Conçu pour répondre aux besoins des applications nécessitant une analyse fine du langage français, il se distingue par sa précision et son adaptabilité à différents cas d'usage, comme l'analyse de sentiments ou la détection d'intentions. Ce modèle se positionne comme une solution robuste et accessible pour les professionnels et chercheurs travaillant avec le français.
SOTA Open source french embedding model.
Instructions :
Add "query : " before the query to retrieve to increase performance of retrieval.
No instructions needed for passages.
| Model | Mean Score |
|---|---|
| OrdalieTech/Solon-embeddings-large-0.1 | 0.7490 |
| cohere/embed-multilingual-v3 | 0.7402 |
| OrdalieTech/Solon-embeddings-base-0.1 | 0.7306 |
| openai/ada-002 | 0.7290 |
| cohere/embed-multilingual-light-v3 | 0.6945 |
| antoinelouis/biencoder-camembert-base-mmarcoFR | 0.6826 |
| dangvantuan/sentence-camembert-large | 0.6756 |
| voyage/voyage-01 | 0.6753 |
| intfloat/multilingual-e5-large | 0.6660 |
| intfloat/multilingual-e5-base | 0.6597 |
| Sbert/paraphrase-multilingual-mpnet-base-v2 | 0.5975 |
| dangvantuan/sentence-camembert-base | 0.5456 |
| EuropeanParliament/eubert_embedding_v1 | 0.5063 |
These results have been obtained through 9 french benchmarks on a variety of text similarity tasks (classification, reranking, STS) :
We created OrdalieFRSTS and OrdalieFRReranking to enhance the benchmarking capabilities of French STS and reranking assessments.
(evaluation script available here : github.com/OrdalieTech/mteb)