par abeja
Open source · 100k downloads · 58 likes
Le modèle gpt-neox-japanese-2.7b est une intelligence artificielle spécialisée dans la génération de texte en japonais, basée sur l'architecture GPT-NeoX et comptant 2,7 milliards de paramètres. Entraîné sur un vaste corpus incluant des données issues de Wikipedia, de Common Crawl et d'autres sources japonaises, il excelle dans la production de contenus textuels naturels et cohérents en japonais. Ses principales capacités incluent la rédaction d'articles, la réponse à des questions, la synthèse de textes ou encore la création de dialogues, tout en s'adaptant à différents registres de langue. Ce modèle se distingue par sa taille optimisée pour des performances équilibrées entre qualité et accessibilité, ainsi que par son tokenizer spécifique conçu pour traiter efficacement les particularités de la langue japonaise. Il s'adresse aux développeurs et chercheurs souhaitant intégrer une génération de texte en japonais dans leurs applications, offrant une alternative open source aux solutions propriétaires.
The open PR is merged on 2022/9/14. You can use this model with v4.23 and higher versions of transformers as follows,
pip install transformers
This repository provides a 2.7B-parameter Japanese GPT-NeoX-based model. The model was trained by ABEJA, Inc
When using pipeline for text generation.
from transformers import pipeline
generator = pipeline("text-generation", model="abeja/gpt-neox-japanese-2.7b")
generated = generator(
"人とAIが協調するためには、",
max_length=300,
do_sample=True,
num_return_sequences=3,
top_p=0.95,
top_k=50
)
print(*generated, sep="\n")
"""
[out]
{"generated_text": "人とAIが協調するためには、「人が持っている優れた能力とAIの得意とする分野を掛け合わせる」ことが不可欠になります。"}
{"generated_text": "人とAIが協調するためには、双方の長所を活かしていくことが不可欠だと考えています。"}
{"generated_text": "人とAIが協調するためには、人間がAIを理解する、ということが重要です。人間には「AIに対してAIが何をするべきか」ということを明確に教えないと、AIはある程度の知識はあっても何をすべきかがわかりません。だから、コンピューターが考えたり、決めたりすることはAIではなく、人間が解釈して理解できるようにしなくて"}
"""
When using PyTorch.
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
model = AutoModelForCausalLM.from_pretrained("abeja/gpt-neox-japanese-2.7b")
input_text = "人とAIが協調するためには、"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_length=100,
do_sample=True,
num_return_sequences=3,
top_p=0.95,
top_k=50,
)
for gen_text in tokenizer.batch_decode(gen_tokens, skip_special_tokens=True):
print(gen_text)
The model was trained on Japanese CC-100, Japanese Wikipedia, and Japanese OSCAR.
The model uses a special sub-word tokenizer. Please refer the original repository or GPT-NeoX-Japanese in detail.