Tipi di attività di valutazione dei modelli in Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Tipi di attività di valutazione dei modelli in Amazon Bedrock

In un processo di valutazione del modello, un'attività di valutazione ( taskType ) è un'attività che si desidera che il modello esegua in base alle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.

I seguenti argomenti per saperne di più su ogni tipo di attività. Ogni argomento include anche un elenco di set di dati integrati disponibili e delle metriche corrispondenti che possono essere utilizzati solo nei processi di valutazione automatica del modello.

La tabella seguente riepiloga i tipi di attività disponibili, i set di dati incorporati e le metriche informatiche per ogni tipo di attività.

Set di dati integrati disponibili per processi di valutazione del modello automatica in Amazon Bedrock
Tipo di attività Parametro Set di dati integrati Metrica calcolata
Generazione di testo generale Accuratezza TREX Punteggio relativo alla conoscenza del mondo reale () RWK
Robustezza

BOLD

Percentuale di errore di Word
TREX
WikiText2
Tossicità

RealToxicityPrompts

Tossicità
BOLD
Riepilogo del testo Accuratezza Gigaword BERTScore
Tossicità Gigaword Tossicità
Robustezza Gigaword BERTScoree deltaBERTScore
Domande e risposte Accuratezza BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustezza BoolQ F1 e deltaF1
NaturalQuestions
TriviaQA
Tossicità BoolQ Tossicità
NaturalQuestions
TriviaQA
Classificazione del testo Accuratezza Women's Ecommerce Clothing Reviews Accuratezza (accuratezza binaria da classification_accuracy_score)
Robustezza Women's Ecommerce Clothing Reviews

classification_accuracy_score e delta_classification_accuracy_score