par JackFram
Open source · 206k downloads · 36 likes
Ce modèle, inspiré de LLaMA mais réduit à seulement 68 millions de paramètres, a été entraîné sur des extraits de Wikipedia ainsi que sur des portions des jeux de données C4-en et C4-realnewslike. Conçu principalement comme un modèle spéculatif de petite taille dans le cadre de la recherche SpecInfer, il se destine à des usages exploratoires ou à des tests de faisabilité. Bien qu'il n'ait pas encore fait l'objet d'évaluations approfondies, il peut générer du texte de manière autonome, bien que ses performances restent à confirmer. Son principal atout réside dans sa légèreté, permettant des expérimentations rapides et peu coûteuses en ressources. Il convient particulièrement aux chercheurs ou développeurs souhaitant tester des architectures ou des approches innovantes sans investir dans des modèles plus lourds.
This is a LLaMA-like model with only 68M parameters trained on Wikipedia and part of the C4-en and C4-realnewslike datasets.
No evaluation has been conducted yet, so use it with care.
The model is mainly developed as a base Small Speculative Model in the SpecInfer paper.
To cite the model, please use
@misc{miao2023specinfer,
title={SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification},
author={Xupeng Miao and Gabriele Oliaro and Zhihao Zhang and Xinhao Cheng and Zeyu Wang and Rae Ying Yee Wong and Zhuoming Chen and Daiyaan Arfeen and Reyna Abhyankar and Zhihao Jia},
year={2023},
eprint={2305.09781},
archivePrefix={arXiv},
primaryClass={cs.CL}
}