Domanda e risposta per la valutazione del modello in Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Domanda e risposta per la valutazione del modello in Amazon Bedrock

Le domande e risposte vengono utilizzate per attività quali la generazione di risposte automatiche dall'help desk, il recupero di informazioni e l'e-learning. Se il testo utilizzato per addestrare il modello di fondazione contiene problemi quali dati incompleti o imprecisi, sarcasmo o ironia, la qualità delle risposte può peggiorare.

Importante

Per domande e risposte, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

I seguenti set di dati integrati sono consigliati per l'uso con il tipo di attività a domanda e risposta.

BoolQ

BoolQ è un set di dati composto da coppie di domande e risposte sì/no. Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l'uso con tipi di attività di domande e risposte.

Natural questions

Natural questions è un set di dati composto da domande reali degli utenti inviate a Google ricerca.

TriviaQA

TriviaQA è un set di dati che contiene oltre 650.000. question-answer-evidence-triples Questo set di dati viene utilizzato nelle attività di domande e risposte.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato. Per specificare correttamente i set di dati integrati disponibili utilizzando il AWS CLI o un file supportato AWS SDKusa i nomi dei parametri nella colonna, Set di dati incorporati (API).

Set di dati integrati disponibili per il tipo di attività di domande e risposte in Amazon Bedrock
Tipo di attività Parametro Set di dati integrati (console) Set di dati integrati () API Metrica calcolata
Domande e risposte Accuratezza BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Robustezza BoolQ Builtin.BoolQ

F1 e deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Tossicità BoolQ Builtin.BoolQ Tossicità
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta Esamina i report e le metriche relative alla valutazione dei modelli in Amazon Bedrock