par Vamsi
Open source · 96k downloads · 41 likes
Le modèle T5 Paraphrase Paws est conçu pour reformuler des phrases en anglais tout en conservant leur sens original. Il s'appuie sur l'architecture T5 et a été entraîné sur le jeu de données Google PAWS, spécialisé dans la détection de paraphrases. Ses principales capacités incluent la génération de variantes textuelles naturelles et grammaticalement correctes, idéales pour enrichir des contenus ou éviter les répétitions. Ce modèle trouve des applications dans des domaines comme le traitement automatique du langage, l'amélioration de la qualité des données ou encore l'assistance à la rédaction. Ce qui le distingue, c'est sa précision dans la préservation du sens tout en proposant des formulations variées, grâce à son entraînement sur des paires de phrases quasi-synonymes.
T5 Model for generating paraphrases of english sentences. Trained on the Google PAWS dataset.
## Requires sentencepiece: # !pip install sentencepiece PyTorch and TF models available
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Vamsi/T5_Paraphrase_Paws")
model = AutoModelForSeq2SeqLM.from_pretrained("Vamsi/T5_Paraphrase_Paws").to('cuda')
sentence = "This is something which i cannot understand at all"
text = "paraphrase: " + sentence + " </s>"
encoding = tokenizer.encode_plus(text,pad_to_max_length=True, return_tensors="pt")
input_ids, attention_masks = encoding["input_ids"].to("cuda"), encoding["attention_mask"].to("cuda")
outputs = model.generate(
input_ids=input_ids, attention_mask=attention_masks,
max_length=256,
do_sample=True,
top_k=120,
top_p=0.95,
early_stopping=True,
num_return_sequences=5
)
for output in outputs:
line = tokenizer.decode(output, skip_special_tokens=True,clean_up_tokenization_spaces=True)
print(line)
For more reference on training your own T5 model or using this model, do check out Paraphrase Generation.