codebert base

par microsoft

Open source · 296k downloads · 284 likes

3.1

(284 avis)EmbeddingAPI & Local

À propos

CodeBERT-base est un modèle de langage pré-entraîné spécialement conçu pour comprendre et générer du code informatique ainsi que du texte naturel. Il excelle dans des tâches comme la recherche de code, la génération de documentation à partir de code, ou encore la complétion de code, en s'appuyant sur une compréhension conjointe des deux types de données. Son approche unique, combinant des objectifs d'apprentissage masqué et de discrimination de tokens réels, lui permet de capturer des relations complexes entre le langage de programmation et les descriptions textuelles. Ce modèle se distingue par sa polyvalence, étant capable de traiter plusieurs langages de programmation tout en maintenant une performance élevée. Il est particulièrement utile pour les développeurs et les chercheurs souhaitant automatiser des tâches liées au code ou améliorer des outils d'assistance à la programmation.

Documentation

CodeBERT-base

Pretrained weights for CodeBERT: A Pre-Trained Model for Programming and Natural Languages.

Training Data

The model is trained on bi-modal data (documents & code) of CodeSearchNet

Training Objective

This model is initialized with Roberta-base and trained with MLM+RTD objective (cf. the paper).

Usage

Please see the official repository for scripts that support "code search" and "code-to-document generation".

Reference

CodeBERT trained with Masked LM objective (suitable for code completion)
🤗 Hugging Face's CodeBERTa (small size, 6 layers)

Citation

Bibtex

@misc{feng2020codebert,
    title={CodeBERT: A Pre-Trained Model for Programming and Natural Languages},
    author={Zhangyin Feng and Daya Guo and Duyu Tang and Nan Duan and Xiaocheng Feng and Ming Gong and Linjun Shou and Bing Qin and Ting Liu and Daxin Jiang and Ming Zhou},
    year={2020},
    eprint={2002.08155},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Liens & Ressources