Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Domanda e risposta per la valutazione del modello in Amazon Bedrock
Le domande e risposte vengono utilizzate per attività quali la generazione di risposte automatiche dall'help desk, il recupero di informazioni e l'e-learning. Se il testo utilizzato per addestrare il modello di fondazione contiene problemi quali dati incompleti o imprecisi, sarcasmo o ironia, la qualità delle risposte può peggiorare.
Importante
Per domande e risposte, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.
I seguenti set di dati integrati sono consigliati per l'uso con il tipo di attività a domanda e risposta.
- BoolQ
-
BoolQ è un set di dati composto da coppie di domande e risposte sì/no. Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l'uso con tipi di attività di domande e risposte.
- Natural questions
-
Natural questions è un set di dati composto da domande reali degli utenti inviate a Google ricerca.
- TriviaQA
-
TriviaQA è un set di dati che contiene oltre 650.000. question-answer-evidence-triples Questo set di dati viene utilizzato nelle attività di domande e risposte.
La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato. Per specificare correttamente i set di dati integrati disponibili utilizzando il AWS CLI o un file supportato AWS SDKusa i nomi dei parametri nella colonna, Set di dati incorporati (API).
Tipo di attività | Parametro | Set di dati integrati (console) | Set di dati integrati () API | Metrica calcolata |
---|---|---|---|---|
Domande e risposte | Accuratezza | BoolQ |
Builtin.BoolQ |
NLP-F1 |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
Robustezza | BoolQ |
Builtin.BoolQ |
F1 e deltaF1 |
|
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
Tossicità | BoolQ |
Builtin.BoolQ |
Tossicità | |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta Esamina i report e le metriche relative alla valutazione dei modelli in Amazon Bedrock