par hugging-quants
Open source · 848k downloads · 46 likes
Le modèle Llama 3.2 1B Instruct Q8 0 GGUF est une version optimisée et quantifiée du modèle Llama 3.2 1B Instruct, spécialement conçue pour fonctionner efficacement sur des ressources limitées. Il excelle dans la compréhension et la génération de texte en suivant des instructions précises, ce qui le rend idéal pour des tâches comme l'assistance conversationnelle, la réponse à des questions ou la génération de contenu structuré. Grâce à sa taille réduite et sa quantification, il offre un bon compromis entre performance et consommation de ressources, tout en conservant une qualité de réponse élevée. Ce modèle se distingue par sa capacité à s'adapter à des environnements où les ressources matérielles sont contraintes, tout en restant performant pour des applications variées.
This model was converted to GGUF format from meta-llama/Llama-3.2-1B-Instruct using llama.cpp via the ggml.ai's GGUF-my-repo space.
Refer to the original model card for more details on the model.
Install llama.cpp through brew (works on Mac and Linux)
brew install llama.cpp
Invoke the llama.cpp server or the CLI.
llama-cli --hf-repo hugging-quants/Llama-3.2-1B-Instruct-Q8_0-GGUF --hf-file llama-3.2-1b-instruct-q8_0.gguf -p "The meaning to life and the universe is"
llama-server --hf-repo hugging-quants/Llama-3.2-1B-Instruct-Q8_0-GGUF --hf-file llama-3.2-1b-instruct-q8_0.gguf -c 2048
Note: You can also use this checkpoint directly through the usage steps listed in the Llama.cpp repo as well.
Step 1: Clone llama.cpp from GitHub.
git clone https://github.com/ggerganov/llama.cpp
Step 2: Move into the llama.cpp folder and build it with LLAMA_CURL=1 flag along with other hardware-specific flags (for ex: LLAMA_CUDA=1 for Nvidia GPUs on Linux).
cd llama.cpp && LLAMA_CURL=1 make
Step 3: Run inference through the main binary.
./llama-cli --hf-repo hugging-quants/Llama-3.2-1B-Instruct-Q8_0-GGUF --hf-file llama-3.2-1b-instruct-q8_0.gguf -p "The meaning to life and the universe is"
or
./llama-server --hf-repo hugging-quants/Llama-3.2-1B-Instruct-Q8_0-GGUF --hf-file llama-3.2-1b-instruct-q8_0.gguf -c 2048