Esamina le metriche per le valutazioni della knowledge base che utilizzano LLMs (console) - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esamina le metriche per le valutazioni della knowledge base che utilizzano LLMs (console)

Puoi esaminare le metriche presentate in un report per un lavoro di valutazione della knowledge base utilizzando la console Amazon Bedrock.

Le valutazioni della knowledge base che utilizzano Large Language Models (LLMs) elaborano metriche di valutazione per valutare le prestazioni relative all'efficacia della knowledge base nel recupero delle informazioni e nella generazione di risposte.

Nella scheda di valutazione della Knowledge Base, vedrete le metriche e i grafici di suddivisione delle metriche pertinenti al tipo di valutazione, ossia solo recupero o recupero con generazione di risposte. Metriche diverse sono pertinenti ai diversi tipi di valutazione. I punteggi calcolati per ogni metrica sono un punteggio medio per i testi recuperati o le risposte generate in tutte le query degli utenti nel set di dati dei prompt. Il punteggio calcolato per ogni metrica è un valore compreso tra 0 e 1. Più si avvicina a 1, più la caratteristica di quella metrica appare nei testi o nelle risposte recuperati. I grafici di suddivisione per ogni metrica tracciano un istogramma e contano quanti testi o risposte recuperati per le domande rientrano in ogni intervallo di punteggio.

Ad esempio, hai creato un processo di valutazione per valutare il recupero con la generazione di risposte. La scheda di valutazione della console mostra che un punteggio calcolato per la completezza nelle risposte è pari a 0,82. Il punteggio di completezza misura il modo in cui le risposte generate rispondono a tutti gli aspetti delle domande degli utenti. Viene calcolato come punteggio medio per le risposte alle domande su tutti i prompt del set di dati. Il grafico dell'istogramma per la completezza mostra che la maggior parte delle risposte (barra più alta) rientra in un intervallo di punteggio di completezza compreso tra 0,7 e 0,8. Tuttavia, la Knowledge Base ha ottenuto un punteggio elevato anche per gli stereotipi, in cui nelle risposte vengono fatte affermazioni generalizzate con un punteggio medio di 0,94. La knowledge base è in grado di generare nella maggior parte dei casi risposte abbastanza complete, ma tali risposte includono una grande quantità di affermazioni generalizzate su individui o gruppi di persone.

Scheda di valutazione per le valutazioni della Knowledge Base che utilizzano LLMs

Segui i passaggi per aprire la scheda di valutazione nella console Amazon Bedrock per i lavori di valutazione della knowledge base che utilizzanoLLMs. Fai riferimento alle informazioni riportate di seguito per ogni metrica rilevante per i soli tipi di valutazione (recupero e recupero con generazione di risposte).

  • Accedi a AWS Management Console e apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/.

  • Scegli Valutazioni dal pannello di navigazione, quindi scegli Valutazione della Knowledge base.

  • Seleziona il nome del tuo lavoro di valutazione della Knowledge Base. Verrai indirizzato alla pagella, che è la pagina principale della valutazione della knowledge base.

    Nota

    Per aprire la scheda di valutazione, lo stato della valutazione della Knowledge Base deve essere pronto o disponibile.

Le metriche relative al solo recupero includono le valutazioni

Esistono alcune metriche utili per valutare la capacità della Knowledge Base di recuperare informazioni altamente pertinenti.

Rilevanza del contesto

Questa metrica è rilevante per la qualità delle informazioni recuperate. Il punteggio è un punteggio medio per i blocchi di testo recuperati in tutti i prompt del set di dati. Rilevanza del contesto significa che i blocchi di testo recuperati sono contestualmente pertinenti alle domande. Più alto è il punteggio, più l'informazione è contestualmente rilevante in media. Più basso è il punteggio, meno le informazioni sono in media pertinenti dal punto di vista contestuale.

Copertura contestuale (richiede verità di base)

Questa metrica è rilevante per la qualità delle informazioni recuperate. Il punteggio è un punteggio medio per i blocchi di testo recuperati in tutti i prompt del set di dati. La copertura contestuale significa che i blocchi di testo recuperati coprono tutte le informazioni fornite nei testi di base. Più alto è il punteggio, maggiore è la copertura contestuale in media. Più basso è il punteggio, minore è la copertura del contesto in media.

Metriche rilevanti per il recupero con valutazioni del tipo di generazione della risposta

Esistono alcune metriche utili per valutare la capacità della knowledge base di generare risposte utili e appropriate sulla base delle informazioni recuperate.

Correttezza

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Correttezza significa rispondere con precisione alle domande. Più alto è il punteggio, più corrette sono in media le risposte generate. Più basso è il punteggio, meno corrette sono in media le risposte generate.

Completezza

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Completezza significa rispondere e risolvere tutti gli aspetti delle domande. Più alto è il punteggio, più complete sono in media le risposte generate. Più basso è il punteggio, meno complete sono in media le risposte generate.

Utilità

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Utilità significa risposte olisticamente utili alle domande. Più alto è il punteggio, più utili sono in media le risposte generate. Più basso è il punteggio, meno utili sono in media le risposte generate.

Coerenza logica

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Coerenza logica significa che le risposte sono prive di lacune logiche, incongruenze o contraddizioni. Più alto è il punteggio, più coerenti sono in media le risposte generate. Più basso è il punteggio, meno coerenti sono in media le risposte generate.

Fedeltà

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Fedeltà significa evitare allucinazioni rispetto ai blocchi di testo recuperati. Più alto è il punteggio, più fedeli sono in media le risposte generate. Più basso è il punteggio, meno fedeli sono in media le risposte generate.

Nocività

Questa metrica è rilevante per l'adeguatezza delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Dannosità significa fare affermazioni odiose, offensive o violente. Più alto è il punteggio, più dannose sono le risposte generate in media. Più basso è il punteggio, meno dannose sono le risposte generate in media.

Stereotipi

Questa metrica è rilevante per l'adeguatezza delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Stereotipare significa fare affermazioni generalizzate su individui o gruppi di persone. Più alto è il punteggio, maggiore è la media degli stereotipi nelle risposte generate. Più basso è il punteggio, minore è la media degli stereotipi nelle risposte generate. Nota che una forte presenza di stereotipi lusinghieri e dispregiativi si tradurrà in un punteggio elevato.

Rifiuto

Questa metrica è rilevante per l'adeguatezza delle risposte generate. Il punteggio è un punteggio medio per le risposte a tutti i prompt del set di dati. Rifiuto significa risposte evasive alle domande. Più alto è il punteggio, più evasive sono in media le risposte generate. Più basso è il punteggio, meno evasive sono in media le risposte generate.