Robustezza semantica - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Robustezza semantica

Valuta in che misura l'output del modello cambia a seguito di piccole modifiche nell'input che preservano la semantica. Foundation Model FMEval Evaluations () misura come cambia l'output del modello a seguito di errori di battitura della tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi.

Amazon SageMaker supporta l'esecuzione di una valutazione della robustezza semantica da Amazon SageMaker Studio o l'utilizzo della libreria. fmeval

  • Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni preselezionate per valutare rapidamente le prestazioni del modello. Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria. fmeval

  • Esecuzione delle valutazioni utilizzando la fmeval libreria: i job di valutazione creati utilizzando la fmeval libreria offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione della robustezza semantica è supportata per i seguenti tipi di attività con i relativi set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, SageMaker campiona 100 punti dati casuali dal set di dati per la valutazione della tossicità. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval libreria, vedere. Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval

Tipo di attività Set di dati integrati Note
Riepilogo del testo

Gigaword, Dataset di rapporti governativi

Risposta alle domande

BoolQ, TriviaA NaturalQuestions

Classificazione

Recensioni di abbigliamento per l'e-commerce femminile

Generazione aperta

T- REx BOLDhttps://github.com/amazon-science/bold, -2 WikiText

Tipi di perturbazioni

La valutazione della robustezza semantica effettua una delle tre perturbazioni seguenti. È possibile selezionare il tipo di perturbazione durante la configurazione del lavoro di valutazione. Tutte e tre le perturbazioni sono adattate da NL-Augmenter.

Esempio di A quick brown fox jumps over the lazy dog input del modello:. 

  • Butter Fingers: Errori di battitura introdotti a causa della pressione del tasto della tastiera adiacente.

    W quick brmwn fox jumps over the lazy dig
  • Maiuscole casuali: modifica delle lettere selezionate casualmente in maiuscole.

    A qUick brOwn fox jumps over the lazY dog
  • Spazi bianchi Aggiungi Rimuovi: aggiunta e rimozione casuali di spazi bianchi dall'input.

    A q uick bro wn fox ju mps overthe lazy dog

Valori calcolati

Questa valutazione misura la variazione delle prestazioni tra l'output del modello basato sull'input originale e imperturbato e l'output del modello basato su una serie di versioni perturbate dell'input. Per informazioni sulla struttura dei prompt richiesta per la valutazione, vedere. Creare un processo di valutazione automatica del modello in Studio

La variazione delle prestazioni è la differenza media tra il punteggio dell'input originale e i punteggi degli input perturbati. I punteggi misurati per valutare questa modifica delle prestazioni dipendono dal tipo di attività:

Riassunto

Per le attività di riepilogo, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

  • ROUGEPunteggio Delta: la differenza media assoluta di ROUGE punteggio per gli input originali e quelli perturbati. I ROUGE punteggi vengono calcolati allo stesso modo del punteggio in. ROUGE Riassunto

  • METEORPunteggio Delta: La differenza media assoluta di METEOR punteggio per gli input originali e quelli perturbati. I METEOR punteggi vengono calcolati allo stesso modo del punteggio in. METEOR Riassunto

  • DeltaBERTScore: La differenza assoluta media tra BERTScore gli input originali e quelli perturbati. BERTScoresVengono calcolati nello stesso modo in cui vengono calcolati. BERTScore Riassunto

Risposta alle domande

Per le attività di risposta alle domande, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

  • Punteggio Delta F1 Over Words: la differenza assoluta media nei punteggi F1 Over Words per gli input originali e quelli perturbati. I punteggi F1 Over Words vengono calcolati allo stesso modo del punteggio F1 Over Words in. Risposta alle domande

  • Punteggio Delta Exact Match: La differenza media assoluta nei punteggi Exact Match per gli input originali e quelli perturbati. I punteggi Exact Match vengono calcolati allo stesso modo del punteggio Exact Match in. Risposta alle domande

  • Punteggio Delta Quasi Exact Match: La differenza media assoluta nei punteggi Quasi Exact Match per gli input originali e quelli perturbati. I punteggi Quasi Exact Match vengono calcolati allo stesso modo del punteggio Quasi Exact Match in Risposta alle domande

  • Punteggio Delta Precision Over Words: La differenza media assoluta nei punteggi Precision Over Words per input originali e perturbati. I punteggi Precision Over Words vengono calcolati allo stesso modo del punteggio Precision Over Words in. Risposta alle domande

  • Punteggio Delta Recall Over Words: La differenza assoluta media nei punteggi Recall Over Words per gli input originali e quelli perturbati. I punteggi Recall Over Words vengono calcolati allo stesso modo del punteggio Recall Over Words in. Risposta alle domande

Classificazione

Per le attività di classificazione, la robustezza semantica misura l'accuratezza quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

  • Punteggio di precisione Delta: la differenza assoluta media nei punteggi di precisione per gli input originali e quelli perturbati. I punteggi di precisione vengono calcolati allo stesso modo del punteggio di precisione in. Classificazione

Generazione a tempo indeterminato

Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria con. fmeval GeneralSemanticRobustness Invece di calcolare la differenza nei punteggi per la generazione aperta, la valutazione della robustezza semantica misura la dissomiglianza nelle generazioni di modelli tra input originale e input perturbato. Questa dissomiglianza viene misurata utilizzando le seguenti strategie:

  • Tasso di errore delle parole (WER): misura la differenza sintattica tra le due generazioni calcolando la percentuale di parole che devono essere modificate per convertire la prima generazione nella seconda generazione. Per ulteriori informazioni sul calcolo diWER, consulta l'HuggingFace articolo sul tasso di errore di Word.

    • Per esempio:

      • Input 1: «Questo è un gatto»

      • Input 2: «Questo è un cane»

      • Numero di parole che devono essere modificate: 1/4 o 25%

      • WER: 0,25

  • BERTScoreDissimilarità (BSD): misura le differenze semantiche tra le due generazioni sottraendo da 1. BERTScore BSDpuò tenere conto di una flessibilità linguistica aggiuntiva che non è inclusa WER perché frasi semanticamente simili possono essere incorporate più vicine l'una all'altra.

    • Ad esempio, mentre il punteggio WER è lo stesso quando la generazione 2 e la generazione 3 vengono confrontate individualmente con la generazione 1, il BSD punteggio è diverso per tenere conto del significato semantico.

      • gen1 (input originale): "It is pouring down today"

      • gen2 (ingresso perturbato 1): "It is my birthday today"

      • gen3 (ingresso 2 perturbato): "It is very rainy today"

      • WER(gen1, gen2)=WER(gen2, gen3)=0.4

      • BERTScore(gen1, gen2)=0.67

      • BERTScore(gen1, gen3)=0.92

      • BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33

      • BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08

    • Le seguenti opzioni sono supportate come parte del parametro: GeneralSemanticRobustnessConfig 

Modelli non deterministici

Quando la strategia di generazione del modello non è deterministica, ad esempio in LLMs caso di temperatura diversa da zero, l'output può cambiare anche se l'input è lo stesso. In questi casi, la segnalazione delle differenze tra l'output del modello per gli input originali e quelli perturbati potrebbe mostrare una robustezza artificialmente bassa. Per tenere conto della strategia non deterministica, la valutazione della robustezza semantica normalizza il punteggio di dissomiglianza sottraendo la differenza media tra gli output del modello basati sullo stesso input. 

max(0,d−dbase​)

  • d: il punteggio di dissomiglianza (Word Error Rate o Dissimilarity) tra le due generazioni. BERTScore

  • dbase​: differenza tra l'output del modello sullo stesso input.