Utilizzo di set di dati rapidi e dimensioni di valutazione disponibili nei lavori di valutazione dei modelli - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di set di dati rapidi e dimensioni di valutazione disponibili nei lavori di valutazione dei modelli

Le sezioni seguenti forniscono una panoramica su come utilizzare i processi di valutazione dei modelli automatici e basati sull'uomo.

Attività di valutazione del modello

In un processo di valutazione dei modelli, un'attività di valutazione è un'attività che si desidera che il modello esegua in base alle informazioni disponibili nelle istruzioni.

Puoi scegliere un tipo di attività per ogni processo di valutazione del modello. Utilizza le seguenti sezioni per saperne di più su ogni tipo di attività. Ogni sezione include anche un elenco di set di dati integrati disponibili e delle metriche corrispondenti che possono essere utilizzate solo nei processi di valutazione automatica del modello.

Generazione a tempo indeterminato

La generazione di testo aperto è un'attività modello di base che genera risposte in linguaggio naturale a richieste che non hanno una struttura predefinita, come le query generiche a un chatbot. Per la generazione di testo aperto, Foundation Model Evaluations (FMEval) può valutare il modello in base alle seguenti dimensioni.

  • Conoscenza fattuale: valuta quanto bene il modello codifica la conoscenza fattuale. FMEvalpuò misurare il modello rispetto al proprio set di dati personalizzato o utilizzare un set di dati integrato basato su TREXset di dati open source.

  • Robustezza semantica: valuta quanto cambia l'output del modello a seguito di piccole modifiche nell'input che preservano la semantica. FMEvalmisura come cambia l'output del modello a seguito di errori di battitura da tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi.

  • Stereotipizzazione rapida: misura la probabilità che il modello codifichi errori nella codifica nella sua risposta. Questi pregiudizi includono quelli relativi a razza, genere, orientamento sessuale, religione, età, nazionalità, disabilità, aspetto fisico e status socioeconomico. FMEvalpuò misurare le risposte del modello rispetto al proprio set di dati personalizzato o utilizzare un set di dati integrato basato su CrowS-Pairsset di dati open source per sfide.

  • Tossicità: valuta il testo utilizzando modelli di rilevamento della tossicità. FMEvalverifica la presenza di riferimenti sessuali, commenti maleducati, irragionevoli, odiosi o aggressivi, parolacce, insulti, flirt, attacchi all'identità e minacce. FMEvalpuò misurare il modello rispetto al proprio set di dati personalizzato o utilizzare set di dati integrati basati su RealToxicityPrompts, RealToxicityPromptsChallenging, e BOLDset di dati.

    RealToxicityPromptsChallenging è un sottoinsieme di RealToxicityPrompts utilizzato per testare i limiti di un modello linguistico di grandi dimensioni (LLM). Identifica inoltre le aree LLMs vulnerabili alla generazione di testo tossico.

    È possibile valutare il modello con i seguenti rilevatori di tossicità:

Riepilogo del testo

Il riepilogo del testo viene utilizzato per attività come la creazione di riassunti di notizie, documenti legali, articoli accademici, anteprime di contenuti e cura dei contenuti. Quanto segue può influire sulla qualità delle risposte: ambiguità, coerenza, distorsioni, fluidità del testo utilizzato per addestrare il modello di base e perdita di informazioni, accuratezza, pertinenza o mancata corrispondenza del contesto. FMEvalpuò valutare il modello rispetto al proprio set di dati personalizzato o utilizzare set di dati integrati basati su Government Report Datasete Gigawordset di dati. Per il riepilogo del testo, FMEval puoi valutare il tuo modello per quanto segue:

  • Precisione: un punteggio numerico che indica la somiglianza del riepilogo con un riepilogo di riferimento accettato come standard di riferimento. Un punteggio numerico elevato indica che il riepilogo è di alta qualità. Un punteggio numerico basso indica un riepilogo scadente. Le seguenti metriche vengono utilizzate per valutare l'accuratezza di un riepilogo:

    • ROUGE-N— Calcola N-gram sovrapposizioni tra il riferimento e il riepilogo del modello.

    • Meteor— Calcola la sovrapposizione delle parole tra il riepilogo di riferimento e quello del modello, tenendo conto anche della riformulazione.

    • BERTScore— Calcola e confronta gli incorporamenti delle frasi per il riepilogo e il riferimento. FMEvalutilizza i modelli roberta-large-mnlio microsoft/ deberta-xlarge-mnli per calcolare gli incorporamenti.

  • Tossicità: punteggi per i riepiloghi generati calcolati utilizzando un modello di rilevatore di tossicità. Per ulteriori informazioni, per ulteriori informazioni, consultate la sezione Tossicità nella precedente attività dedicata alla generazione aperta.

  • Robustezza semantica: misura in che misura la qualità del riepilogo del testo del modello cambia a seguito di piccole modifiche nell'input che preservano la semantica. Esempi di queste modifiche includono errori di battitura, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi. La robustezza semantica utilizza la differenza assoluta di precisione tra un riepilogo di testo imperturbato e uno che è perturbato. L'algoritmo di precisione utilizza il ROUGE-N, Meteore BERTScoremetriche, come descritto in precedenza in questa sezione.

Risposta alle domande

La risposta alle domande viene utilizzata per attività quali la generazione di risposte automatiche dall'help desk, il recupero di informazioni e l'e-learning. FMEvalpuò valutare il modello rispetto al proprio set di dati personalizzato o utilizzare set di dati integrati basati su BoolQ, TriviaQAe Natural Questionsset di dati. Per rispondere alle domande, FMEval puoi valutare il tuo modello per quanto segue:

  • Precisione: un punteggio medio che confronta la risposta generata con le coppie di domande e risposte fornite nei riferimenti. Il punteggio viene calcolato in base ai seguenti metodi:

    • Corrispondenza esatta: a una corrispondenza esatta 1 viene assegnato un punteggio binario di, e in 0 altro modo.

    • Corrispondenza quasi esatta: a una corrispondenza 1 viene assegnato un punteggio binario di dopo la rimozione della punteggiatura e degli articoli grammaticali (come la, a e) (normalizzazione).

    • F1 sulle parole: il punteggio F1, o media armonica di precisione e richiamo tra la risposta normalizzata e il riferimento. Il punteggio F1 è uguale a due volte la precisione moltiplicata per il richiamo diviso per la somma di precisione (P) e richiamo (R), o F1 = (2*P*R)/(P + R).

      Nel calcolo precedente, la precisione è definita come il numero di veri positivi (TP) diviso per la somma dei veri positivi e dei falsi positivi (FP), oppure P = (TP)/(TP+FP).

      Il richiamo è definito come il numero di veri positivi diviso per la somma dei veri positivi e dei falsi negativi (FN), o R = (TP)/(TP+FN).

      Un punteggio F1 più alto rispetto alle parole indica risposte di qualità superiore.

  • Robustezza semantica: misura di quanto cambia la qualità del riepilogo del testo del modello a seguito di piccole modifiche nell'input che preservano la semantica. Esempi di queste modifiche includono errori di battitura da tastiera, conversione imprecisa di numeri in parole, modifiche casuali in lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi. La robustezza semantica utilizza la differenza assoluta di precisione tra un riepilogo di testo imperturbato e uno che è perturbato. La precisione viene misurata utilizzando la corrispondenza esatta, la corrispondenza quasi esatta e la combinazione F1 sulle parole, come descritto in precedenza.

  • Tossicità: i punteggi valutano le risposte generate utilizzando un modello di rilevatore di tossicità. Per ulteriori informazioni, consultate la sezione Tossicità nella precedente attività dedicata alla generazione aperta per i dettagli.

Classificazione

La classificazione viene utilizzata per classificare il testo in categorie predefinite. Le applicazioni che utilizzano la classificazione del testo includono i suggerimenti dei contenuti, il rilevamento dello spam, l'identificazione della lingua e l'analisi dei trend sui social media. Dati squilibrati, ambigui e rumorosi, distorsioni nell'etichettatura sono alcuni dei problemi che possono causare errori nella classificazione. FMEvalvaluta il modello rispetto a un set di dati integrato basato su Women’s ECommerce Clothing Reviewsset di dati e/o utilizzando i set di dati richiesti dall'utente per quanto segue.

  • Precisione: un punteggio che confronta la classe prevista con la relativa etichetta. La precisione viene misurata utilizzando le seguenti metriche:

    • Precisione della classificazione: un punteggio binario che indica 1 se l'etichetta prevista è uguale all'etichetta vera e altro. 0

    • Precisione: il rapporto tra i veri positivi e tutti gli aspetti positivi, calcolato sull'intero set di dati. La precisione è una misura appropriata quando è importante ridurre i falsi positivi. Il punteggio per ogni punto dati può essere aggregato utilizzando i seguenti valori per il multiclass_average_strategy parametro. Ogni parametro è elencato nell'esempio seguente.

    • Richiamo: il rapporto tra i veri positivi e la somma dei veri positivi e dei falsi negativi, calcolato sull'intero set di dati. Il richiamo è una misura appropriata quando è importante ridurre i falsi negativi. I punteggi per ogni punto dati possono essere aggregati utilizzando i seguenti valori per il multiclass_average_strategy parametro.

      • micro(impostazione predefinita): la somma dei veri positivi divisa per la somma dei veri positivi e dei falsi negativi per tutte le classi. Questo tipo di aggregazione fornisce una misura della precisione predittiva complessiva del modello, considerando tutte le classi allo stesso modo. Ad esempio, questa aggregazione può valutare la capacità del modello di classificare correttamente i pazienti affetti da qualsiasi malattia, comprese le malattie rare, perché attribuisce lo stesso peso a tutte le classi.

      • macro— La somma dei valori di richiamo calcolati per ogni classe divisa per il numero di classi. Questo tipo di aggregazione fornisce una misura dell'accuratezza predittiva del modello per ogni classe, con lo stesso peso per ogni classe. Ad esempio, questa aggregazione può valutare la capacità del modello di prevedere tutte le malattie, indipendentemente dalla prevalenza o dalla rarità di ciascuna condizione.

      • samples(solo classificazione multiclasse): il rapporto tra la somma dei veri positivi su tutti i campioni e la somma dei veri positivi e dei falsi negativi per tutti i campioni. Per la classificazione multiclasse, un campione è costituito da una serie di risposte previste per ogni classe. Questo tipo di aggregazione fornisce una misura granulare del richiamo di ciascun campione per problemi multiclasse. Ad esempio, poiché l'aggregazione per campioni tratta ogni campione allo stesso modo, questa aggregazione può valutare la capacità del modello di prevedere una diagnosi corretta per un paziente affetto da una malattia rara, riducendo al contempo al minimo i falsi negativi.

      • weighted— Il peso per una classe moltiplicato per il richiamo per la stessa classe, sommato per tutte le classi. Questo tipo di aggregazione fornisce una misura del richiamo complessivo, tenendo conto delle diverse importanza tra le classi. Ad esempio, questa aggregazione può valutare la capacità del modello di prevedere una diagnosi corretta per un paziente e attribuire un peso maggiore alle malattie potenzialmente letali.

      • binary— Il richiamo calcolato per la classe specificata dal valore. pos_label Questo tipo di aggregazione ignora la classe non specificata e fornisce una precisione predittiva complessiva per una singola classe. Ad esempio, questa aggregazione può valutare la capacità del modello di sottoporre a screening una popolazione per una specifica malattia altamente contagiosa e potenzialmente letale.

      • none— Il richiamo calcolato per ogni classe. Il richiamo specifico per classe può aiutarti a risolvere gli squilibri di classe nei dati quando la penalità in caso di errore varia significativamente tra le classi. Ad esempio, questa aggregazione può valutare in che misura il modello è in grado di identificare tutti i pazienti che potrebbero avere una malattia specifica.

    • Precisione di classificazione bilanciata (BCA): la somma del richiamo e il tasso negativo reale diviso 2 per la classificazione binaria. Il tasso di veri negativi è il numero di veri negativi diviso per la somma dei veri negativi e dei falsi positivi. Per la classificazione multiclasse, BCA viene calcolato come somma dei valori di richiamo per ogni classe divisa per il numero di classi. BCApuò aiutare quando la penalità per la previsione sia di falsi positivi che di falsi negativi è elevata. Ad esempio, BCA può valutare la capacità del modello di prevedere una serie di malattie letali altamente contagiose con trattamenti intrusivi.

  • Robustezza semantica: valuta quanto cambia l'output del modello a seguito di piccole modifiche nell'input che preservano la semantica. FMEvalmisura l'output del modello come risultato di errori di battitura da tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi. La robustezza semantica segna la differenza assoluta in termini di precisione tra un riepilogo di testo imperturbato e uno che è perturbato.

Tipi di valutazioni dei modelli di base

Le sezioni seguenti forniscono dettagli sui tipi di valutazioni umane e algoritmiche per il modello di base.

Valutazioni umane

Per valutare il modello da parte di un essere umano, è necessario definire le metriche e i tipi di metrici associati. Se desideri valutare più di un modello, puoi utilizzare un meccanismo di valutazione comparativo o individuale. Se si desidera valutare un modello, è necessario utilizzare un meccanismo di valutazione individuale. I seguenti meccanismi di classificazione possono essere applicati a qualsiasi attività relativa al testo:

  • Scala Likert (comparativa): confronto: un valutatore umano indicherà la propria preferenza tra due risposte su una scala Likert a 5 punti in base alle istruzioni fornite. Nel rapporto finale, i risultati verranno visualizzati come un istogramma di valutazioni in base all'intensità delle preferenze sull'intero set di dati. Definite i punti importanti della scala a 5 punti nelle vostre istruzioni in modo che i valutatori sappiano come valutare le risposte in base alle vostre aspettative.

  • Tasti di scelta (comparativi): consentono a un valutatore umano di indicare una risposta preferita rispetto a un'altra utilizzando i pulsanti di opzione, in base alle istruzioni fornite dall'utente. I risultati del report finale verranno visualizzati come percentuale delle risposte preferite dai lavoratori per ciascun modello. Spiegate chiaramente il vostro metodo di valutazione nelle istruzioni.

  • Grado ordinale (comparativo): consente a un valutatore umano di classificare le proprie risposte preferite a un prompt in ordine, a partire da 1 e in base alle istruzioni fornite. Nel rapporto finale, i risultati vengono visualizzati sotto forma di istogramma delle posizioni ottenute dai valutatori sull'intero set di dati. Assicurati di definire il 1 significato di rango nelle tue istruzioni.

  • (Individuale) Pollice su/giù: consente a un valutatore umano di valutare ogni risposta di un modello come accettabile o inaccettabile in base alle istruzioni fornite. Nel rapporto finale, i risultati mostrano una percentuale del numero totale di valutazioni dei valutatori che hanno ricevuto una valutazione positiva per ciascun modello. È possibile utilizzare questo metodo di valutazione per valutare uno o più modelli. Se lo si utilizza in una valutazione che contiene due modelli, l'interfaccia utente presenta al team di lavoro un'opzione di pollice in alto o in giù per ogni risposta del modello. Il rapporto finale mostrerà i risultati aggregati per ogni modello singolarmente. Definite quale sia una risposta accettabile nelle istruzioni che date al vostro team di lavoro.

  • Scala Likert (individuale) - individuale: consente a un valutatore umano di indicare in che misura approva la risposta del modello, sulla base delle vostre istruzioni, su una scala Likert a 5 punti. Nel rapporto finale, i risultati mostrano un istogramma delle valutazioni a 5 punti fornite dai valutatori sull'intero set di dati. È possibile utilizzare questo metodo di valutazione per una valutazione contenente uno o più modelli. Se si seleziona questo metodo di valutazione in una valutazione che contiene più di un modello, per ogni risposta del modello viene presentata al team di lavoro una scala Likert a 5 punti. Il rapporto finale mostrerà i risultati aggregati per ciascun modello singolarmente. Definite i punti importanti sulla scala a 5 punti nelle vostre istruzioni in modo che i vostri valutatori sappiano come valutare le risposte in base alle vostre aspettative.

Valutazioni automatiche

Le valutazioni automatiche possono sfruttare set di dati e algoritmi integrati oppure è possibile aggiungere un set di dati personalizzato con istruzioni specifiche per il proprio caso d'uso. I set di dati incorporati variano per ogni attività e sono elencati nelle sezioni seguenti. Per un riepilogo delle attività e delle metriche e dei set di dati associati, consultate la tabella nella seguente sezione di valutazione riassuntiva del modello Foundation.

Riassunto della valutazione del modello Foundation

La tabella seguente riassume tutte le attività di valutazione, le metriche e i set di dati integrati per le valutazioni umane e automatiche.

Attività Valutazioni umane Metriche umane Valutazioni automatiche Metriche automatiche Set di dati automatici integrati

Generazione a tempo indeterminato

Fluidità, coerenza, tossicità, precisione, coerenza, pertinenza, definiti dall'utente

Tasso di preferenza, forza di preferenza, grado di preferenza, tasso di approvazione, forza di approvazione

Conoscenza fattuale

TREX

Robustezza semantica

TREX

BOLD

WikiText

Stereotipi rapidi

CrowS-Pairs

Tossicità

RealToxicityPrompts

BOLD

Riepilogo del testo

Accuratezza

ROUGE-N

Government Report Dataset

BERTScore

Gigaword

Government Report Dataset

Gigaword

Government Report Dataset

Gigaword

Risposta alle domande

Accuratezza

Corrispondenza esatta

BoolQ

Corrispondenza quasi esatta

NaturalQuestions

F1 rispetto alle parole

TriviaQA

Robustezza semantica

BoolQ

NaturalQuestions

TriviaQA

Tossicità

BoolQ

NaturalQuestions

TriviaQA

Classificazione del testo

Accuratezza

Precisione della classificazione

Women's Ecommerce Clothing Reviews

Precisione

Women's Ecommerce Clothing Reviews

Recupero

Women's Ecommerce Clothing Reviews

Precisione di classificazione bilanciata

Women's Ecommerce Clothing Reviews

Robustezza semantica

Women's Ecommerce Clothing Reviews