Robustezza semantica

Modalità Focus

Robustezza semantica - Amazon SageMaker AI

Tipo di attività supportato Tipi di perturbazioni Valori calcolati

Valuta in che misura l'output del modello cambia a seguito di piccole modifiche nell'input che preservano la semantica. Foundation Model FMEval Evaluations () misura come cambia l'output del modello a seguito di errori di battitura della tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi.

Amazon SageMaker AI supporta l'esecuzione di una valutazione della robustezza semantica da Amazon SageMaker Studio o l'utilizzo della libreria. fmeval

Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni preselezionate per valutare rapidamente le prestazioni del modello. Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria. fmeval
Esecuzione delle valutazioni utilizzando la fmeval libreria: i job di valutazione creati utilizzando la fmeval libreria offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione della robustezza semantica è supportata per i seguenti tipi di attività con i relativi set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per la valutazione della tossicità. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval libreria, vedere. Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval

Tipo di attività	Set di dati integrati	Note
Riepilogo del testo	Gigaword , Dataset di rapporti governativi
Risposta alle domande	BoolQ, TriviaA NaturalQuestions
Classificazione	Recensioni di abbigliamento per l'e-commerce femminile
Generazione a tempo indeterminato	T- REx , GRASSETTO, -2 WikiText

Tipi di perturbazioni

La valutazione della robustezza semantica effettua una delle tre perturbazioni seguenti. È possibile selezionare il tipo di perturbazione durante la configurazione del lavoro di valutazione. Tutte e tre le perturbazioni sono adattate da NL-Augmenter.

Esempio di A quick brown fox jumps over the lazy dog input del modello:.

Butter Fingers: Errori di battitura introdotti a causa della pressione del tasto della tastiera adiacente.
```
W quick brmwn fox jumps over the lazy dig
```
Maiuscole casuali: modifica delle lettere selezionate casualmente in maiuscole.
```
A qUick brOwn fox jumps over the lazY dog
```
Spazi bianchi Aggiungi Rimuovi: aggiunta e rimozione casuali di spazi bianchi dall'input.
```
A q uick bro wn fox ju mps overthe lazy dog
```

Valori calcolati

Questa valutazione misura la variazione delle prestazioni tra l'output del modello basato sull'input originale e imperturbato e l'output del modello basato su una serie di versioni perturbate dell'input. Per informazioni sulla struttura dei prompt richiesta per la valutazione, vedere. Creare un processo di valutazione automatica del modello in Studio

La variazione delle prestazioni è la differenza media tra il punteggio dell'input originale e i punteggi degli input perturbati. I punteggi misurati per valutare questa modifica delle prestazioni dipendono dal tipo di attività:

Riassunto

Per le attività di riepilogo, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

Punteggio Delta ROUGE: La differenza assoluta media nel punteggio ROUGE per gli input originali e quelli perturbati. I punteggi ROUGE vengono calcolati allo stesso modo del punteggio ROUGE in. Riassunto
Punteggio Delta METEOR: La differenza media assoluta nel punteggio METEOR per gli input originali e quelli perturbati. I punteggi METEOR vengono calcolati allo stesso modo del punteggio METEOR in. Riassunto
Delta BERTScore: La differenza assoluta media tra gli input originali e BERTScore quelli perturbati. BERTScores Vengono calcolati nello stesso modo in cui vengono calcolati. BERTScore Riassunto

Risposta alle domande

Per le attività di risposta alle domande, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

Punteggio Delta F1 Over Words: la differenza assoluta media nei punteggi F1 Over Words per gli input originali e quelli perturbati. I punteggi F1 Over Words vengono calcolati allo stesso modo del punteggio F1 Over Words in. Risposta alle domande
Punteggio Delta Exact Match: La differenza media assoluta nei punteggi Exact Match per gli input originali e quelli perturbati. I punteggi Exact Match vengono calcolati allo stesso modo del punteggio Exact Match in. Risposta alle domande
Punteggio Delta Quasi Exact Match: La differenza media assoluta nei punteggi Quasi Exact Match per gli input originali e quelli perturbati. I punteggi Quasi Exact Match vengono calcolati allo stesso modo del punteggio Quasi Exact Match in Risposta alle domande
Punteggio Delta Precision Over Words: La differenza media assoluta nei punteggi Precision Over Words per input originali e perturbati. I punteggi Precision Over Words vengono calcolati allo stesso modo del punteggio Precision Over Words in. Risposta alle domande
Punteggio Delta Recall Over Words: La differenza assoluta media nei punteggi Recall Over Words per gli input originali e quelli perturbati. I punteggi Recall Over Words vengono calcolati allo stesso modo del punteggio Recall Over Words in. Risposta alle domande

Classificazione

Per le attività di classificazione, la robustezza semantica misura l'accuratezza quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

Punteggio di precisione Delta: la differenza assoluta media nei punteggi di precisione per gli input originali e quelli perturbati. I punteggi di precisione vengono calcolati allo stesso modo del punteggio di precisione in. Classificazione

Generazione a tempo indeterminato

Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria con. fmeval GeneralSemanticRobustness Invece di calcolare la differenza nei punteggi per la generazione aperta, la valutazione della robustezza semantica misura la dissomiglianza nelle generazioni di modelli tra input originale e input perturbato. Questa dissomiglianza viene misurata utilizzando le seguenti strategie:

Tasso di errore delle parole (WER): misura la differenza sintattica tra le due generazioni calcolando la percentuale di parole che devono essere modificate per convertire la prima generazione nella seconda generazione. Per ulteriori informazioni sul calcolo del WER, consulta l'HuggingFace articolo sul tasso di errore di Word.
- Per esempio:
  - Input 1: «Questo è un gatto»
  - Input 2: «Questo è un cane»
  - Numero di parole che devono essere modificate: 1/4 o 25%
  - WER: 0,25
BERTScore Dissimilarità (BSD): misura le differenze semantiche tra le due generazioni sottraendo da 1. BERTScore BSD può tenere conto di una flessibilità linguistica aggiuntiva che non è inclusa nel WER perché frasi semanticamente simili possono essere incorporate più vicine l'una all'altra.
- Ad esempio, mentre il WER è lo stesso quando la generazione 2 e la generazione 3 vengono confrontate individualmente con la generazione 1, il punteggio BSD è diverso per tenere conto del significato semantico.
  - gen1 (input originale): "It is pouring down today"
  - gen2 (ingresso perturbato 1): "It is my birthday today"
  - gen3 (ingresso 2 perturbato): "It is very rainy today"
  - WER(gen1, gen2)=WER(gen2, gen3)=0.4
  - BERTScore(gen1, gen2)=0.67
  - BERTScore(gen1, gen3)=0.92
  - BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
  - BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
- Le seguenti opzioni sono supportate come parte del parametro: GeneralSemanticRobustnessConfig
  - model_type_for_bertscore: nome del modello da utilizzare per il punteggio. BERTScore Attualmente Dissuilarity supporta solo i seguenti modelli:
    
    "microsoft/deberta-xlarge-mnli" (impostazione predefinita)
    
    "roberta-large-mnli"

Modelli non deterministici

Quando la strategia di generazione del modello non è deterministica, ad esempio in LLMs caso di temperatura diversa da zero, l'output può cambiare anche se l'input è lo stesso. In questi casi, la segnalazione delle differenze tra l'output del modello per gli input originali e quelli perturbati potrebbe mostrare una robustezza artificialmente bassa. Per tenere conto della strategia non deterministica, la valutazione della robustezza semantica normalizza il punteggio di dissomiglianza sottraendo la differenza media tra gli output del modello basati sullo stesso input.

max(0,d−dbase)

d: il punteggio di dissomiglianza (Word Error Rate o Dissimilarity) tra le due generazioni. BERTScore
dbase: differenza tra l'output del modello sullo stesso input.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Stereotipi rapidi

Tossicità

In questa pagina

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Robustezza semantica

Tipo di attività supportato

Tipi di perturbazioni

Valori calcolati

Riassunto

Risposta alle domande

Classificazione

Generazione a tempo indeterminato

In questa pagina

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?