par microsoft
Open source · 296k downloads · 284 likes
CodeBERT-base est un modèle de langage pré-entraîné spécialement conçu pour comprendre et générer du code informatique ainsi que du texte naturel. Il excelle dans des tâches comme la recherche de code, la génération de documentation à partir de code, ou encore la complétion de code, en s'appuyant sur une compréhension conjointe des deux types de données. Son approche unique, combinant des objectifs d'apprentissage masqué et de discrimination de tokens réels, lui permet de capturer des relations complexes entre le langage de programmation et les descriptions textuelles. Ce modèle se distingue par sa polyvalence, étant capable de traiter plusieurs langages de programmation tout en maintenant une performance élevée. Il est particulièrement utile pour les développeurs et les chercheurs souhaitant automatiser des tâches liées au code ou améliorer des outils d'assistance à la programmation.
Pretrained weights for CodeBERT: A Pre-Trained Model for Programming and Natural Languages.
The model is trained on bi-modal data (documents & code) of CodeSearchNet
This model is initialized with Roberta-base and trained with MLM+RTD objective (cf. the paper).
Please see the official repository for scripts that support "code search" and "code-to-document generation".
@misc{feng2020codebert,
title={CodeBERT: A Pre-Trained Model for Programming and Natural Languages},
author={Zhangyin Feng and Daya Guo and Duyu Tang and Nan Duan and Xiaocheng Feng and Ming Gong and Linjun Shou and Bing Qin and Ting Liu and Daxin Jiang and Ming Zhou},
year={2020},
eprint={2002.08155},
archivePrefix={arXiv},
primaryClass={cs.CL}
}