Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Robustezza semantica

Modalità Focus
Robustezza semantica - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valuta in che misura l'output del modello cambia a seguito di piccole modifiche nell'input che preservano la semantica. Foundation Model FMEval Evaluations () misura come cambia l'output del modello a seguito di errori di battitura della tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi.

Amazon SageMaker AI supporta l'esecuzione di una valutazione della robustezza semantica da Amazon SageMaker Studio o l'utilizzo della libreria. fmeval

  • Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni preselezionate per valutare rapidamente le prestazioni del modello. Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria. fmeval

  • Esecuzione delle valutazioni utilizzando la fmeval libreria: i job di valutazione creati utilizzando la fmeval libreria offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione della robustezza semantica è supportata per i seguenti tipi di attività con i relativi set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per la valutazione della tossicità. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval libreria, vedere. Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval

Tipo di attività Set di dati integrati Note
Riepilogo del testo

Gigaword, Dataset di rapporti governativi

Risposta alle domande

BoolQ, TriviaA NaturalQuestions

Classificazione

Recensioni di abbigliamento per l'e-commerce femminile

Generazione a tempo indeterminato

T- REx, GRASSETTO, -2 WikiText

Tipi di perturbazioni

La valutazione della robustezza semantica effettua una delle tre perturbazioni seguenti. È possibile selezionare il tipo di perturbazione durante la configurazione del lavoro di valutazione. Tutte e tre le perturbazioni sono adattate da NL-Augmenter.

Esempio di A quick brown fox jumps over the lazy dog input del modello:. 

  • Butter Fingers: Errori di battitura introdotti a causa della pressione del tasto della tastiera adiacente.

    W quick brmwn fox jumps over the lazy dig
  • Maiuscole casuali: modifica delle lettere selezionate casualmente in maiuscole.

    A qUick brOwn fox jumps over the lazY dog
  • Spazi bianchi Aggiungi Rimuovi: aggiunta e rimozione casuali di spazi bianchi dall'input.

    A q uick bro wn fox ju mps overthe lazy dog

Valori calcolati

Questa valutazione misura la variazione delle prestazioni tra l'output del modello basato sull'input originale e imperturbato e l'output del modello basato su una serie di versioni perturbate dell'input. Per informazioni sulla struttura dei prompt richiesta per la valutazione, vedere. Creare un processo di valutazione automatica del modello in Studio

La variazione delle prestazioni è la differenza media tra il punteggio dell'input originale e i punteggi degli input perturbati. I punteggi misurati per valutare questa modifica delle prestazioni dipendono dal tipo di attività:

Riassunto

Per le attività di riepilogo, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

  • Punteggio Delta ROUGE: La differenza assoluta media nel punteggio ROUGE per gli input originali e quelli perturbati. I punteggi ROUGE vengono calcolati allo stesso modo del punteggio ROUGE in. Riassunto

  • Punteggio Delta METEOR: La differenza media assoluta nel punteggio METEOR per gli input originali e quelli perturbati. I punteggi METEOR vengono calcolati allo stesso modo del punteggio METEOR in. Riassunto

  • Delta BERTScore: La differenza assoluta media tra gli input originali e BERTScore quelli perturbati. BERTScores Vengono calcolati nello stesso modo in cui vengono calcolati. BERTScore Riassunto

Risposta alle domande

Per le attività di risposta alle domande, la robustezza semantica misura i seguenti punteggi quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

  • Punteggio Delta F1 Over Words: la differenza assoluta media nei punteggi F1 Over Words per gli input originali e quelli perturbati. I punteggi F1 Over Words vengono calcolati allo stesso modo del punteggio F1 Over Words in. Risposta alle domande

  • Punteggio Delta Exact Match: La differenza media assoluta nei punteggi Exact Match per gli input originali e quelli perturbati. I punteggi Exact Match vengono calcolati allo stesso modo del punteggio Exact Match in. Risposta alle domande

  • Punteggio Delta Quasi Exact Match: La differenza media assoluta nei punteggi Quasi Exact Match per gli input originali e quelli perturbati. I punteggi Quasi Exact Match vengono calcolati allo stesso modo del punteggio Quasi Exact Match in Risposta alle domande

  • Punteggio Delta Precision Over Words: La differenza media assoluta nei punteggi Precision Over Words per input originali e perturbati. I punteggi Precision Over Words vengono calcolati allo stesso modo del punteggio Precision Over Words in. Risposta alle domande

  • Punteggio Delta Recall Over Words: La differenza assoluta media nei punteggi Recall Over Words per gli input originali e quelli perturbati. I punteggi Recall Over Words vengono calcolati allo stesso modo del punteggio Recall Over Words in. Risposta alle domande

Classificazione

Per le attività di classificazione, la robustezza semantica misura l'accuratezza quando si utilizza l'input perturbato, nonché il Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza media assoluta tra il punteggio dell'input originale e i punteggi dell'input perturbato.

  • Punteggio di precisione Delta: la differenza assoluta media nei punteggi di precisione per gli input originali e quelli perturbati. I punteggi di precisione vengono calcolati allo stesso modo del punteggio di precisione in. Classificazione

Generazione a tempo indeterminato

Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria con. fmeval GeneralSemanticRobustness Invece di calcolare la differenza nei punteggi per la generazione aperta, la valutazione della robustezza semantica misura la dissomiglianza nelle generazioni di modelli tra input originale e input perturbato. Questa dissomiglianza viene misurata utilizzando le seguenti strategie:

  • Tasso di errore delle parole (WER): misura la differenza sintattica tra le due generazioni calcolando la percentuale di parole che devono essere modificate per convertire la prima generazione nella seconda generazione. Per ulteriori informazioni sul calcolo del WER, consulta l'HuggingFace articolo sul tasso di errore di Word.

    • Per esempio:

      • Input 1: «Questo è un gatto»

      • Input 2: «Questo è un cane»

      • Numero di parole che devono essere modificate: 1/4 o 25%

      • WER: 0,25

  • BERTScore Dissimilarità (BSD): misura le differenze semantiche tra le due generazioni sottraendo da 1. BERTScore BSD può tenere conto di una flessibilità linguistica aggiuntiva che non è inclusa nel WER perché frasi semanticamente simili possono essere incorporate più vicine l'una all'altra.

    • Ad esempio, mentre il WER è lo stesso quando la generazione 2 e la generazione 3 vengono confrontate individualmente con la generazione 1, il punteggio BSD è diverso per tenere conto del significato semantico.

      • gen1 (input originale): "It is pouring down today"

      • gen2 (ingresso perturbato 1): "It is my birthday today"

      • gen3 (ingresso 2 perturbato): "It is very rainy today"

      • WER(gen1, gen2)=WER(gen2, gen3)=0.4

      • BERTScore(gen1, gen2)=0.67

      • BERTScore(gen1, gen3)=0.92

      • BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33

      • BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08

    • Le seguenti opzioni sono supportate come parte del parametro: GeneralSemanticRobustnessConfig 

Modelli non deterministici

Quando la strategia di generazione del modello non è deterministica, ad esempio in LLMs caso di temperatura diversa da zero, l'output può cambiare anche se l'input è lo stesso. In questi casi, la segnalazione delle differenze tra l'output del modello per gli input originali e quelli perturbati potrebbe mostrare una robustezza artificialmente bassa. Per tenere conto della strategia non deterministica, la valutazione della robustezza semantica normalizza il punteggio di dissomiglianza sottraendo la differenza media tra gli output del modello basati sullo stesso input. 

max(0,d−dbase​)

  • d: il punteggio di dissomiglianza (Word Error Rate o Dissimilarity) tra le due generazioni. BERTScore

  • dbase​: differenza tra l'output del modello sullo stesso input.

Argomento successivo:

Tossicità

Argomento precedente:

Stereotipi rapidi
PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.