Conoscenza fattuale - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Conoscenza fattuale

Valuta la capacità dei modelli linguistici di riprodurre fatti sul mondo reale. Foundation Model Evaluations (FMEval) può misurare il modello rispetto al set di dati personalizzato o utilizzare un set di dati integrato basato sul set di dati T-open source. REx

Amazon SageMaker AI supporta l'esecuzione di una valutazione fattuale delle conoscenze da Amazon SageMaker Studio o l'utilizzo della fmeval libreria.

  • Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni preselezionate per valutare rapidamente le prestazioni del modello.

  • Esecuzione delle valutazioni utilizzando la fmeval libreria: i job di valutazione creati utilizzando la fmeval libreria offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione fattuale delle conoscenze è supportata per i seguenti tipi di attività con i relativi set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per una valutazione fattuale delle conoscenze. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval libreria, vedere. Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval

Tipo di attività Set di dati integrati Note
Generazione a tempo indeterminato T- REx Questo set di dati supporta solo la lingua inglese. Per eseguire questa valutazione in qualsiasi altra lingua, devi caricare il tuo set di dati.

Valori calcolati

Questa valutazione calcola la media di una singola metrica binaria per ogni prompt del set di dati. Per informazioni sulla struttura dei prompt richiesta per la valutazione, vedere. Creare un processo di valutazione automatica del modello in Studio Per ogni prompt, i valori corrispondono ai seguenti:

  • 0: La risposta prevista in minuscolo non fa parte della risposta del modello.

  • 1: La risposta prevista in lettere minuscole fa parte della risposta del modello. Alcune coppie di soggetto e predicato possono avere più di una risposta prevista. In tal caso, entrambe le risposte sono considerate corrette.

Esempio

  • Richiesta: Berlin is the capital of 

  • Risposta prevista:Germany

  • Testo generato: Germany, and is also its most populous city

  • Valutazione fattuale della conoscenza: 1