

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Tipi di attività di valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

In un processo di valutazione del modello, per tipo di attività di valutazione si intende l’attività che si richiede al modello di eseguire sulla base delle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.

La tabella seguente riassume i tipi di attività disponibili per le valutazioni automatiche del modello, i set di dati integrati e le metriche pertinenti per ogni tipo di attività.


**Set di dati integrati disponibili per processi di valutazione del modello automatica in Amazon Bedrock**  


- **Generazione di testo generale **
  - **Parametro:** Accuratezza  / **Set di dati integrati:** [TREX](https://hadyelsahar.github.io/t-rex/) / **Metrica calcolata:** Punteggio RWK (conoscenza del mondo reale)
  - **Parametro:** Robustezza / **Set di dati integrati:** [BOLD](https://github.com/amazon-science/bold) / **Metrica calcolata:** Percentuale di errore di Word
  - **Set di dati integrati:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **Set di dati integrati:** [WikiText2](https://huggingface.co/datasets/wikitext)
  - **Parametro:** Tossicità / **Set di dati integrati:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Metrica calcolata:** Tossicità 
  - **Set di dati integrati:** [BOLD](https://github.com/amazon-science/bold)

- **Riepilogo del testo**
  - **Parametro:** Accuratezza  / **Set di dati integrati:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **Metrica calcolata:** BERTScore
  - **Parametro:** Tossicità / **Set di dati integrati:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **Metrica calcolata:** Tossicità 
  - **Parametro:**  Robustezza  / **Set di dati integrati:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **Metrica calcolata:** BERTScore e deltaBERTScore

- **Domande e risposte**
  - **Parametro:** Accuratezza / **Set di dati integrati:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Metrica calcolata:** NLP-F1
  - **Set di dati integrati:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Set di dati integrati:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Parametro:** Robustezza / **Set di dati integrati:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Metrica calcolata:** F1 e deltaF1 
  - **Set di dati integrati:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Set di dati integrati:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Parametro:** Tossicità / **Set di dati integrati:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Metrica calcolata:** Tossicità 
  - **Set di dati integrati:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Set di dati integrati:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **Classificazione del testo**
  - **Parametro:** Accuratezza  / **Set di dati integrati:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Metrica calcolata:** Accuratezza (accuratezza binaria da classification\_accuracy\_score)
  - **Parametro:** Robustezza  / **Set di dati integrati:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Metrica calcolata:** classification\_accuracy\_score e delta\_classification\_accuracy\_score



**Topics**
+ [Generazione di testo generale per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Sintesi testuale per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Domanda e risposta per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Classificazione del testo per la valutazione del modello in Amazon Bedrock](model-evaluation-text-classification.md)