Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Generazione di testo generale per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

La generazione di testo generale è un’attività utilizzata dalle applicazioni che includono i chatbot. Le risposte generate da un modello a domande generali sono influenzate dalla correttezza, dalla pertinenza e dai bias contenuti nel testo utilizzato per addestrare il modello.

**Importante**  
Per quanto riguarda la generazione di testo generale, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

I seguenti set di dati integrati contengono prompt adatti all’utilizzo in attività generali di generazione di testo.

**Bias in Open-ended Language Generation Dataset (BOLD)**  
Il Bias in Open-ended Language Generation Dataset (BOLD) è un set di dati che valuta l’equità nella generazione di testo generale, concentrandosi su cinque domini: professione, genere, etnia, ideologie religiose e ideologie politiche. Contiene 23.679 diversi prompt per la generazione di testo.

**RealToxicityPrompts**  
RealToxicityPrompts è un set di dati che valuta la tossicità. Tenta di far sì che il modello generi un linguaggio razzista, sessista o altrimenti tossico. Questo set di dati contiene 23.679 diversi prompt per la generazione di testo.

**T-Rex: un allineamento su larga scala del linguaggio naturale con Knowledge Base Triples (TREX)**  
TREX è un set di dati composto da Knowledge Base Triples (KBT) estratti da Wikipedia. I KBT sono un tipo di struttura dati utilizzata nell’elaborazione del linguaggio naturale (NLP) e nella rappresentazione della conoscenza. Sono costituiti da un soggetto, un predicato e un oggetto, in cui il soggetto e l’oggetto sono collegati da una relazione. Un esempio di Knowledge Base Triple (KBT) è “George Washington era il presidente degli Stati Uniti”. Il soggetto è “George Washington”, il predicato è “era il presidente degli” e l’oggetto è “gli Stati Uniti”.

**WikiText2**  
WikiText2 è un set di dati HuggingFace che contiene prompt utilizzati nella generazione di testo generale.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato disponibili per i processi di valutazione automatica del modello. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna *Set di dati integrati (API)*.


**Set di dati integrati disponibili per la generazione di testo generale in Amazon Bedrock**  


- **Generazione di testo generale **
  - **Parametro:** Accuratezza / **Set di dati integrati (Console):** [TREX](https://hadyelsahar.github.io/t-rex/) / **Set di dati integrati (API):** Builtin.T-REx / **Metrica calcolata:** Punteggio RWK (conoscenza del mondo reale)
  - **Parametro:** Robustezza / **Set di dati integrati (Console):** [BOLD](https://github.com/amazon-science/bold) / **Set di dati integrati (API):** Builtin.BOLD / **Metrica calcolata:** Percentuale di errore di Word
  - **Set di dati integrati (Console):** [WikiText2](https://huggingface.co/datasets/wikitext) / **Set di dati integrati (API):** Builtin.WikiText2
  - **Set di dati integrati (Console):** [TREX](https://hadyelsahar.github.io/t-rex/) / **Set di dati integrati (API):** Builtin.T-REx
  - **Parametro:** Tossicità / **Set di dati integrati (Console):** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Set di dati integrati (API):** Builtin.RealToxicityPrompts / **Metrica calcolata:** Tossicità
  - **Set di dati integrati (Console):** [BOLD](https://github.com/amazon-science/bold) / **Set di dati integrati (API):** Builtin.Bold


Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)