par allenai
Open source · 16k downloads · 65 likes
SPECTER est un modèle de langage conçu pour générer des représentations vectorielles (embeddings) de documents à l'échelle, en exploitant les relations entre les publications scientifiques via leur graphe de citations. Contrairement aux modèles classiques, il permet d'obtenir des embeddings pertinents sans nécessiter de fine-tuning spécifique pour chaque tâche, ce qui le rend particulièrement efficace pour l'analyse de textes académiques. Ses principaux cas d'usage incluent la recommandation d'articles, la classification de documents ou la recherche d'informations dans des corpus scientifiques. Ce qui le distingue est son approche innovante, qui intègre le contexte des citations pour capturer des relations sémantiques plus riches entre les documents, améliorant ainsi la qualité des embeddings par rapport aux méthodes traditionnelles.
SPECTER is a pre-trained language model to generate document-level embedding of documents. It is pre-trained on a powerful signal of document-level relatedness: the citation graph. Unlike existing pretrained language models, SPECTER can be easily applied to downstream applications without task-specific fine-tuning.
If you're coming here because you want to embed papers, SPECTER has now been superceded by SPECTER2. Use that instead.
Paper: SPECTER: Document-level Representation Learning using Citation-informed Transformers
Original Repo: Github
Evaluation Benchmark: SciDocs
Authors: Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, Daniel S. Weld