Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Conoscenza fattuale
Valuta la capacità dei modelli linguistici di riprodurre fatti sul mondo reale. Foundation Model Evaluations (FMEval) può misurare il modello rispetto al set di dati personalizzato o utilizzare un set di dati integrato basato sul set di dati T-open
Amazon SageMaker AI supporta l'esecuzione di una valutazione fattuale delle conoscenze da Amazon SageMaker Studio o l'utilizzo della fmeval
libreria.
-
Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni preselezionate per valutare rapidamente le prestazioni del modello.
-
Esecuzione delle valutazioni utilizzando la
fmeval
libreria: i job di valutazione creati utilizzando lafmeval
libreria offrono opzioni estese per configurare la valutazione delle prestazioni del modello.
Tipo di attività supportato
La valutazione fattuale delle conoscenze è supportata per i seguenti tipi di attività con i relativi set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per una valutazione fattuale delle conoscenze. Quando si utilizza la fmeval
libreria, questo può essere regolato passando il parametro al num_records
metodo. evaluate
Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval
libreria, vedere. Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval
Tipo di attività | Set di dati integrati | Note |
---|---|---|
Generazione a tempo indeterminato | T- REx |
Questo set di dati supporta solo la lingua inglese. Per eseguire questa valutazione in qualsiasi altra lingua, devi caricare il tuo set di dati. |
Valori calcolati
Questa valutazione calcola la media di una singola metrica binaria per ogni prompt del set di dati. Per informazioni sulla struttura dei prompt richiesta per la valutazione, vedere. Creare un processo di valutazione automatica del modello in Studio Per ogni prompt, i valori corrispondono ai seguenti:
-
0
: La risposta prevista in minuscolo non fa parte della risposta del modello. -
1
: La risposta prevista in lettere minuscole fa parte della risposta del modello. Alcune coppie di soggetto e predicato possono avere più di una risposta prevista. In tal caso, entrambe le risposte sono considerate corrette.
Esempio
-
Richiesta:
Berlin is the capital of
-
Risposta prevista:
Germany
. -
Testo generato:
Germany, and is also its most populous city
-
Valutazione fattuale della conoscenza: 1