Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Robustezza semantica
Valuta in che misura l'output del modello cambia a seguito di piccole modifiche nell'input che preservano la semantica. Foundation Model FMEval Evaluations () misura come cambia l'output del modello a seguito di errori di battitura della tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi.
Amazon SageMaker supporta l'esecuzione di una valutazione della robustezza semantica da Amazon SageMaker Studio o l'utilizzo della libreria. fmeval
-
Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni preselezionate per valutare rapidamente le prestazioni del modello. Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria.
fmeval
-
Esecuzione delle valutazioni utilizzando la
fmeval
libreria: i job di valutazione creati utilizzando lafmeval
libreria offrono opzioni estese per configurare la valutazione delle prestazioni del modello.
Tipo di attività supportato
La valutazione della robustezza semantica è supportata per i seguenti tipi di attività con i relativi set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, SageMaker campiona 100 punti dati casuali dal set di dati per la valutazione della tossicità. Quando si utilizza la fmeval
libreria, questo può essere regolato passando il parametro al num_records
metodo. evaluate
Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval
libreria, vedere. Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval
Tipo di attività | Set di dati integrati | Note |
---|---|---|
Riepilogo del testo | ||
Risposta alle domande | ||
Classificazione | ||
Generazione aperta |
T- REx BOLDhttps://github.com/amazon-science/bold |
Tipi di perturbazioni
La valutazione della robustezza semantica effettua una delle tre perturbazioni seguenti. È possibile selezionare il tipo di perturbazione durante la configurazione del lavoro di valutazione. Tutte e tre le perturbazioni sono adattate da NL-Augmenter.
Esempio di A quick brown fox jumps over the lazy dog
input del modello:.
-
Butter Fingers
: Errori di battitura introdotti a causa della pressione del tasto della tastiera adiacente. W quick brmwn fox jumps over the lazy dig
-
Maiuscole casuali
: modifica delle lettere selezionate casualmente in maiuscole. A qUick brOwn fox jumps over the lazY dog
-
Spazi bianchi Aggiungi Rimuovi
: aggiunta e rimozione casuali di spazi bianchi dall'input. A q uick bro wn fox ju mps overthe lazy dog
Valori calcolati
Questa valutazione misura la variazione delle prestazioni tra l'output del modello basato sull'input originale e imperturbato e l'output del modello basato su una serie di versioni perturbate dell'input. Per informazioni sulla struttura dei prompt richiesta per la valutazione, vedere. Creare un processo di valutazione automatica del modello in Studio
La variazione delle prestazioni è la differenza media tra il punteggio dell'input originale e i punteggi degli input perturbati. I punteggi misurati per valutare questa modifica delle prestazioni dipendono dal tipo di attività:
Riassunto
Per le attività di riepilogo, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.
-
ROUGEPunteggio Delta: la differenza media assoluta di ROUGE punteggio per gli input originali e quelli perturbati. I ROUGE punteggi vengono calcolati allo stesso modo del punteggio in. ROUGE Riassunto
-
METEORPunteggio Delta: La differenza media assoluta di METEOR punteggio per gli input originali e quelli perturbati. I METEOR punteggi vengono calcolati allo stesso modo del punteggio in. METEOR Riassunto
-
DeltaBERTScore: La differenza assoluta media tra BERTScore gli input originali e quelli perturbati. BERTScoresVengono calcolati nello stesso modo in cui vengono calcolati. BERTScore Riassunto
Risposta alle domande
Per le attività di risposta alle domande, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.
-
Punteggio Delta F1 Over Words: la differenza assoluta media nei punteggi F1 Over Words per gli input originali e quelli perturbati. I punteggi F1 Over Words vengono calcolati allo stesso modo del punteggio F1 Over Words in. Risposta alle domande
-
Punteggio Delta Exact Match: La differenza media assoluta nei punteggi Exact Match per gli input originali e quelli perturbati. I punteggi Exact Match vengono calcolati allo stesso modo del punteggio Exact Match in. Risposta alle domande
-
Punteggio Delta Quasi Exact Match: La differenza media assoluta nei punteggi Quasi Exact Match per gli input originali e quelli perturbati. I punteggi Quasi Exact Match vengono calcolati allo stesso modo del punteggio Quasi Exact Match in Risposta alle domande
-
Punteggio Delta Precision Over Words: La differenza media assoluta nei punteggi Precision Over Words per input originali e perturbati. I punteggi Precision Over Words vengono calcolati allo stesso modo del punteggio Precision Over Words in. Risposta alle domande
-
Punteggio Delta Recall Over Words: La differenza assoluta media nei punteggi Recall Over Words per gli input originali e quelli perturbati. I punteggi Recall Over Words vengono calcolati allo stesso modo del punteggio Recall Over Words in. Risposta alle domande
Classificazione
Per le attività di classificazione, la robustezza semantica misura l'accuratezza quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.
-
Punteggio di precisione Delta: la differenza assoluta media nei punteggi di precisione per gli input originali e quelli perturbati. I punteggi di precisione vengono calcolati allo stesso modo del punteggio di precisione in. Classificazione
Generazione a tempo indeterminato
Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria con. fmeval
GeneralSemanticRobustness
-
Tasso di errore delle parole
(WER): misura la differenza sintattica tra le due generazioni calcolando la percentuale di parole che devono essere modificate per convertire la prima generazione nella seconda generazione. Per ulteriori informazioni sul calcolo diWER, consulta l'HuggingFace articolo sul tasso di errore di Word . -
Per esempio:
-
Input 1: «Questo è un gatto»
-
Input 2: «Questo è un cane»
-
Numero di parole che devono essere modificate: 1/4 o 25%
-
WER: 0,25
-
-
-
BERTScoreDissimilarità (BSD): misura le differenze semantiche tra le due generazioni sottraendo da 1. BERTScore BSDpuò tenere conto di una flessibilità linguistica aggiuntiva che non è inclusa WER perché frasi semanticamente simili possono essere incorporate più vicine l'una all'altra.
-
Ad esempio, mentre il punteggio WER è lo stesso quando la generazione 2 e la generazione 3 vengono confrontate individualmente con la generazione 1, il BSD punteggio è diverso per tenere conto del significato semantico.
-
gen1 (input originale):
"It is pouring down today"
-
gen2 (ingresso perturbato 1):
"It is my birthday today"
-
gen3 (ingresso 2 perturbato):
"It is very rainy today"
-
WER(gen1, gen2)=WER(gen2, gen3)=0.4
-
BERTScore(gen1, gen2)=0.67
-
BERTScore(gen1, gen3)=0.92
-
BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
-
BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
-
-
Le seguenti opzioni sono supportate come parte del parametro: GeneralSemanticRobustnessConfig
-
model_type_for_bertscore
: nome del modello da utilizzare per il punteggio. BERTScoreAttualmente Dissuilarity supporta solo i seguenti modelli:-
"
microsoft/deberta-xlarge-mnli
" (impostazione predefinita)
-
-
-
Modelli non deterministici
Quando la strategia di generazione del modello non è deterministica, ad esempio in LLMs caso di temperatura diversa da zero, l'output può cambiare anche se l'input è lo stesso. In questi casi, la segnalazione delle differenze tra l'output del modello per gli input originali e quelli perturbati potrebbe mostrare una robustezza artificialmente bassa. Per tenere conto della strategia non deterministica, la valutazione della robustezza semantica normalizza il punteggio di dissomiglianza sottraendo la differenza media tra gli output del modello basati sullo stesso input.
max(0,d−dbase)
-
d
: il punteggio di dissomiglianza (Word Error Rate o Dissimilarity) tra le due generazioni. BERTScore -
dbase
: differenza tra l'output del modello sullo stesso input.