AI/EXPLORER
OutilsCatégoriesSitesLLMsComparerQuiz IAAlternativesPremium
—Outils IA
—Sites & Blogs
—LLMs & Modèles
—Catégories
AI Explorer

Trouvez et comparez les meilleurs outils d'intelligence artificielle pour vos projets.

Fait avecen France

Explorer

  • ›Tous les outils
  • ›Sites & Blogs
  • ›LLMs & Modèles
  • ›Comparer
  • ›Chatbots
  • ›Images IA
  • ›Code & Dev

Entreprise

  • ›Premium
  • ›À propos
  • ›Contact
  • ›Blog

Légal

  • ›Mentions légales
  • ›Confidentialité
  • ›CGV

© 2026 AI Explorer·Tous droits réservés.

AccueilLLMsllama2 embedding 1b 8k

llama2 embedding 1b 8k

par mesolitica

Open source · 232k downloads · 2 likes

0.6
(2 avis)EmbeddingAPI & Local
À propos

Le modèle *Llama2 Embedding 1B 8K* est une version spécialisée de Llama2 conçue pour générer des embeddings textuels à partir de textes en malais. Entraîné sur des séquences tronquées de 8 000 tokens, il peut néanmoins traiter des contextes jusqu’à 32 000 tokens lors de l’inférence, offrant ainsi une grande flexibilité pour des documents longs. Ses principales capacités résident dans la création de représentations vectorielles précises et contextualisées, adaptées à des tâches de recherche sémantique, de classification ou d’analyse de similarité dans la langue malaisienne. Idéal pour des applications nécessitant une compréhension fine du texte, comme les moteurs de recherche intelligents, les systèmes de recommandation ou l’analyse de sentiments, il se distingue par son équilibre entre performance et efficacité, tout en restant accessible grâce à sa taille réduite de 1 milliard de paramètres.

Documentation

1B 32768 context length Llama2 on Malaysian text embedding task

Trained on truncated 8k context length, but infer able to scale up to 32k context length.

README at https://github.com/mesolitica/llama2-embedding#finetune

WandB, https://wandb.ai/mesolitica/llama2-embedding-1b?workspace=user-husein-mesolitica

how-to

Python
from transformers import AutoModel, AutoTokenizer
from sklearn.metrics.pairwise import cosine_similarity

model = AutoModel.from_pretrained('mesolitica/llama2-embedding-1b-8k', trust_remote_code = True)
tokenizer = AutoTokenizer.from_pretrained('mesolitica/llama2-embedding-1b-8k')

input_ids = tokenizer(
    [
        'tak suka ayam', 
        'Isu perkauman: Kerajaan didakwa terdesak kaitkan pemimpin PN',
        'nasi ayam tu sedap', 
        'suka ikan goreng?',
        'Kerajaan tidak akan berkompromi dengan isu perkauman dan agama yang dimanipulasi pihak tertentu untuk mengganggu-gugat kestabilan negara serta ketenteraman rakyat.',
        'rasis bodo mamat tu',
        'kerajaan sekarang xde otak',
        'aku nak sukan olimpik ni',
        'malaysia dapat x pingat kt sukan asia?',
        'pingat gangsa menerusi terjun dan olahraga pada hari ke-10',
        'Kerajaan negeri kini dibenarkan melaksanakan penerokaan awal unsur nadir bumi (REE) berdasarkan prosedur operasi standard (SOP) sedia ada untuk perlombongan nadir bumi dan mineral.',
        'KONTINJEN Malaysia mendekati sasaran 27 pingat di Sukan Asia kali ini esok, selepas menuai dua lagi pingat gangsa menerusi terjun dan olahraga pada hari ke-10 pertandingan, pada Selasa.'
    ], 
    return_tensors = 'pt',
    padding = True
)
v = model.encode(input_ids).detach().numpy()
v.shape
SCSS
(12, 1536)
Liens & Ressources
Spécifications
CatégorieEmbedding
AccèsAPI & Local
LicenceOpen Source
TarificationOpen Source
Paramètres1B parameters
Note
0.6

Essayer llama2 embedding 1b 8k

Accédez directement au modèle