par Xenova
Open source · 19k downloads · 8 likes
Le modèle *Jina Embeddings v2 base en* est un outil d'intelligence artificielle conçu pour transformer du texte en vecteurs numériques, facilitant ainsi la compréhension et la comparaison sémantique entre phrases ou documents. Ses capacités principales incluent la génération d'embeddings de haute qualité pour des textes en anglais, permettant des applications comme la recherche sémantique, la classification ou la détection de similarités. Il se distingue par son efficacité et sa compatibilité avec des frameworks modernes comme Transformers.js, notamment via des poids ONNX optimisés pour le web. Ce modèle est particulièrement utile pour les développeurs cherchant à intégrer des fonctionnalités avancées de traitement du langage naturel dans des applications interactives ou des systèmes nécessitant une analyse rapide et précise du texte.
https://huggingface.co/jinaai/jina-embeddings-v2-base-en with ONNX weights to be compatible with Transformers.js.
If you haven't already, you can install the Transformers.js JavaScript library from NPM using:
npm i @huggingface/transformers
import { pipeline, cos_sim } from '@huggingface/transformers';
// Create feature extraction pipeline
const extractor = await pipeline('feature-extraction', 'Xenova/jina-embeddings-v2-base-en', {
dtype: "fp32" // Options: "fp32", "fp16", "q8", "q4"
});
// Generate embeddings
const output = await extractor(
['How is the weather today?', 'What is the current weather like today?'],
{ pooling: 'mean' }
);
// Compute cosine similarity
console.log(cos_sim(output[0].data, output[1].data)); // 0.9341313949712492 (unquantized) vs. 0.9022937687830741 (quantized)
Note: Having a separate repo for ONNX weights is intended to be a temporary solution until WebML gains more traction. If you would like to make your models web-ready, we recommend converting to ONNX using 🤗 Optimum and structuring your repo like this one (with ONNX weights located in a subfolder named onnx).