Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Tipi di attività di valutazione dei modelli in Amazon Bedrock
In un processo di valutazione del modello, un tipo di attività di valutazione è un'attività che si desidera che il modello esegua in base alle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.
La tabella seguente riassume i tipi di attività disponibili per le valutazioni automatiche dei modelli, i set di dati incorporati e le metriche pertinenti per ogni tipo di attività.
Tipo di attività | Parametro | Set di dati integrati | Metrica calcolata |
---|---|---|---|
Generazione di testo generale | Accuratezza | TREX |
Punteggio relativo alla conoscenza del mondo reale () RWK |
Robustezza | Percentuale di errore di Word | ||
TREX |
|||
WikiText2 |
|||
Tossicità | Tossicità | ||
BOLD |
|||
Riepilogo del testo | Accuratezza | Gigaword |
BERTScore |
Tossicità | Gigaword |
Tossicità | |
Robustezza | Gigaword |
BERTScoree deltaBERTScore | |
Domande e risposte | Accuratezza | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
Robustezza | BoolQ |
F1 e deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
Tossicità | BoolQ |
Tossicità | |
NaturalQuestions |
|||
TriviaQA |
|||
Classificazione del testo | Accuratezza | Women's Ecommerce Clothing Reviews |
Accuratezza (accuratezza binaria da classification_accuracy_score) |
Robustezza | Women's Ecommerce Clothing Reviews |
classification_accuracy_score e delta_classification_accuracy_score |