Equità, spiegabilità del modello e rilevamento delle distorsioni con Clarify SageMaker - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Equità, spiegabilità del modello e rilevamento delle distorsioni con Clarify SageMaker

Puoi usare Amazon SageMaker Clarify per comprendere l'equità e la spiegabilità dei modelli e per spiegare e rilevare errori nei tuoi modelli. Puoi configurare un processo di elaborazione SageMaker Clarify per calcolare metriche di distorsioni e attribuzioni di funzionalità e generare report per la spiegabilità del modello. SageMaker I processi di elaborazione di Clarify vengono implementati utilizzando un'immagine del contenitore Clarify specializzata. SageMaker La pagina seguente descrive come funziona SageMaker Clarify e come iniziare con un'analisi.

Cosa sono l'equità e la spiegabilità dei modelli per le previsioni di machine learning?

I modelli di machine learning (ML) aiutano a prendere decisioni in settori quali servizi finanziari, assistenza sanitaria, istruzione e risorse umane. I responsabili politici, i regolatori e i sostenitori hanno sensibilizzato l'opinione pubblica sulle sfide etiche e politiche poste dal machine learning e dai sistemi basati sui dati. Amazon SageMaker Clarify può aiutarti a capire perché il tuo modello di machine learning ha creato una previsione specifica e se questa distorsione influisce su questa previsione durante l'addestramento o l'inferenza. SageMaker Clarify fornisce anche strumenti che possono aiutarti a creare modelli di machine learning meno distorti e più comprensibili. SageMaker Clarify può anche generare report sulla governance dei modelli da fornire ai team di rischio e conformità e alle autorità di regolamentazione esterne. Con SageMaker Clarify, puoi fare quanto segue:

  • Rileva le distorsioni e aiuta a spiegare le previsioni del modello.

  • Identifica i tipi di distorsioni nei dati di pre-allenamento.

  • Identifica i tipi di distorsioni nei dati post-allenamento che possono emergere durante l'addestramento o quando il modello è in produzione.

SageMaker Clarify aiuta a spiegare come i tuoi modelli effettuano previsioni utilizzando le attribuzioni di funzionalità. Può anche monitorare i modelli di inferenza in produzione sia per individuare distorsioni che deviazioni nell'attribuzione delle caratteristiche. Queste informazioni possono essere utili nelle seguenti aree:

  • Normativa: i responsabili politici e gli altri regolatori possono nutrire preoccupazioni in merito agli impatti discriminatori delle decisioni che utilizzano i risultati dei modelli di machine learning. Ad esempio, un modello di machine learning può codificare pregiudizi e influenzare una decisione automatizzata.

  • Aziende: i domini regolamentati possono richiedere spiegazioni affidabili su come i modelli ML effettuano previsioni. La spiegabilità dei modelli può essere particolarmente importante per i settori che dipendono dall'affidabilità, dalla sicurezza e dalla conformità. Questi possono includere servizi finanziari, risorse umane, assistenza sanitaria e trasporti automatizzati. Ad esempio, le richieste di prestito potrebbero dover fornire spiegazioni su come i modelli di machine learning hanno fornito determinate previsioni ai responsabili dei prestiti, agli addetti alle previsioni e ai clienti.

  • Scienza dei dati: i data scientist e gli ingegneri di machine learning possono eseguire il debug e migliorare i modelli di machine learning quando sono in grado di determinare se un modello sta effettuando inferenze basate su funzionalità rumorose o irrilevanti. Sono inoltre in grado di comprendere i limiti dei propri modelli e le modalità di errore a cui possono andare incontro.

Per un post sul blog che mostra come progettare e creare un modello completo di machine learning per reclami automobilistici fraudolenti che integri SageMaker Clarify in una SageMaker pipeline, consulta Architect e crea l'intero ciclo di vita dell'apprendimento automatico con AWS: Una demo di Amazon. end-to-end SageMaker Questo post sul blog spiega come valutare e mitigare i pregiudizi prima e dopo l'allenamento e come le funzionalità influiscono sulla previsione del modello. Il post del blog contiene collegamenti a codice di esempio per ogni attività nel ciclo di vita del machine learning.

Le migliori pratiche per valutare l'equità e la spiegabilità nel ciclo di vita del machine learning

L'equità come processo: le nozioni di pregiudizio ed equità dipendono dalla loro applicazione. La misurazione dei pregiudizi e la scelta delle metriche dei pregiudizi possono essere guidate da considerazioni sociali, legali e di altro tipo non tecniche. L'adozione di successo di approcci di apprendimento automatico consapevoli dell'equità include la creazione del consenso e il raggiungimento della collaborazione tra le principali parti interessate. Questi possono includere team di prodotto, policy, legali, ingegneristici, AI/ML, utenti finali e comunità.

Equità e spiegabilità fin dalla progettazione nel ciclo di vita del machine learning: considera l'equità e la spiegabilità in ogni fase del ciclo di vita del machine learning. Queste fasi includono la formazione dei problemi, la costruzione del set di dati, la selezione degli algoritmi, il processo di addestramento del modello, il processo di test, l'implementazione, il monitoraggio e il feedback. È importante disporre degli strumenti giusti per eseguire questa analisi. Ti consigliamo di porre le seguenti domande durante il ciclo di vita del machine learning:

  • Il modello incoraggia cicli di feedback che possono produrre risultati sempre più iniqui?

  • Un algoritmo è una soluzione etica al problema?

  • I dati di allenamento sono rappresentativi di diversi gruppi?

  • Ci sono pregiudizi nelle etichette o nelle caratteristiche?

  • I dati devono essere modificati per mitigare le distorsioni?

  • I vincoli di equità devono essere inclusi nella funzione obiettivo?

  • Il modello è stato valutato utilizzando metriche di equità pertinenti?

  • Vi sono effetti diseguali tra gli utenti?

  • Il modello è utilizzato su una popolazione per la quale non è stato formato o valutato?

Best practice per valutare l'equità e la spiegabilità del modello.

Guida alle SageMaker spiegazioni e alla documentazione sui pregiudizi

Le distorsioni possono verificarsi ed essere misurate nei dati sia prima che dopo l'addestramento di un modello. SageMaker Clarify può fornire spiegazioni per le previsioni dei modelli dopo l'addestramento e per i modelli implementati in produzione. SageMaker Clarify può anche monitorare i modelli in produzione per rilevare eventuali variazioni nelle loro attribuzioni esplicative di base e calcolare le linee di base quando necessario. La documentazione per spiegare e rilevare i pregiudizi utilizzando Clarify è strutturata come segue: SageMaker

Come funzionano i lavori di elaborazione di SageMaker Clarify

Puoi utilizzare SageMaker Clarify per analizzare i set di dati e i modelli per verificarne la spiegabilità e le distorsioni. Un processo di elaborazione SageMaker Clarify utilizza il contenitore di elaborazione SageMaker Clarify per interagire con un bucket Amazon S3 contenente i set di dati di input. Puoi anche utilizzare SageMaker Clarify per analizzare un modello di cliente distribuito su un endpoint di inferenza. SageMaker

Il grafico seguente mostra come un processo di elaborazione SageMaker Clarify interagisce con i dati di input e, facoltativamente, con un modello del cliente. Questa interazione dipende dal tipo specifico di analisi eseguita. Il contenitore di elaborazione SageMaker Clarify ottiene il set di dati di input e la configurazione per l'analisi da un bucket S3. Per determinati tipi di analisi, inclusa l'analisi delle feature, il contenitore di elaborazione SageMaker Clarify deve inviare le richieste al contenitore del modello. Quindi recupera le previsioni del modello dalla risposta inviata dal container del modello. Successivamente, il contenitore di elaborazione SageMaker Clarify calcola e salva i risultati dell'analisi nel bucket S3.

SageMaker Clarify può analizzare i dati dell'utente o un modello di cliente per verificarne la spiegabilità e gli errori.

È possibile eseguire un processo di elaborazione SageMaker Clarify in più fasi del ciclo di vita del flusso di lavoro di apprendimento automatico. SageMaker Clarify può aiutarvi a calcolare i seguenti tipi di analisi:

  • Metriche di distorsione prima dell'allenamento. Queste metriche possono aiutarti a comprendere la distorsione dei tuoi dati in modo da poterla correggere e addestrare il tuo modello su un set di dati più equo. Metriche di bias pre-addestramentoPer informazioni sulle metriche relative ai pregiudizi prima dell'allenamento, consulta la sezione. Per eseguire un processo di analisi delle metriche di distorsione prima dell'allenamento, devi fornire il set di dati e un file di configurazione dell'analisi a. JSON File di configurazione dell'analisi

  • Metriche di distorsione post-allenamento. Queste metriche possono aiutarti a comprendere eventuali distorsioni introdotte da un algoritmo, le scelte iperparametriche o qualsiasi distorsione che non era evidente in precedenza nel flusso. Per ulteriori informazioni sulle metriche relative ai pregiudizi post-allenamento, consulta. Dati post-allenamento e metriche di distorsione dei modelli SageMaker Clarify utilizza le previsioni del modello oltre ai dati e alle etichette per identificare i pregiudizi. Per eseguire un processo di analisi delle metriche di distorsione successive all'allenamento, è necessario fornire il set di dati e un file di configurazione dell'analisi. JSON La configurazione deve includere il nome del modello o dell'endpoint.

  • Valori di Shapley, che possono aiutarvi a capire l'impatto della feature su quanto previsto dal modello. Per ulteriori informazioni sui valori di Shapley, consultate. Caratterizzazione delle attribuzioni che utilizzano i valori Shapley Questa funzionalità richiede un modello addestrato.

  • Grafici di dipendenza parziale (PDPs), che possono aiutarvi a capire quanto cambierebbe la variabile target prevista se variassi il valore di una feature. Per ulteriori informazioni suPDPs, consulta PDPsAnalisi dei grafici di dipendenza parziale () Questa funzionalità richiede un modello addestrato.

SageMaker Clarify necessita di previsioni basate su modelli per calcolare le metriche di distorsione post-allenamento e l'attribuzione delle funzionalità. È possibile fornire un endpoint oppure SageMaker Clarify creerà un endpoint temporaneo utilizzando il nome del modello, noto anche come endpoint ombra. Il contenitore SageMaker Clarify elimina l'endpoint shadow dopo il completamento dei calcoli. A un livello elevato, il contenitore SageMaker Clarify completa i seguenti passaggi:

  1. Convalida input e parametri.

  2. Crea l'endpoint shadow (se viene fornito un nome di modello).

  3. Carica il set di dati di input in un frame di dati.

  4. Ottiene le previsioni del modello dall'endpoint, se necessario.

  5. Calcola i parametri di bias e le attribuzioni delle funzionalità.

  6. Elimina l'endpoint shadow.

  7. Genera i risultati dell'analisi.

Una volta completato il processo di elaborazione di SageMaker Clarify, i risultati dell'analisi verranno salvati nella posizione di output specificata nel parametro di output di elaborazione del lavoro. Questi risultati includono un JSON file con metriche di distorsione e attribuzioni globali delle funzionalità, un rapporto visivo e file aggiuntivi per le attribuzioni di funzionalità locali. È possibile scaricare i risultati dalla posizione di output e visualizzarli.

Per ulteriori informazioni sulle metriche dei pregiudizi, sulla spiegabilità e su come interpretarle, consulta Scopri come Amazon SageMaker Clarify aiuta a rilevare bias, Fairness Measures for Machine Learning in Finance e il white paper Amazon AI Fairness and Explainability.

Notebook di esempio

Le seguenti sezioni contengono taccuini per aiutarvi a iniziare a utilizzare SageMaker Clarify, a utilizzarlo per attività speciali, incluse quelle all'interno di un lavoro distribuito, e per la visione artificiale.

Nozioni di base

I seguenti taccuini di esempio mostrano come utilizzare SageMaker Clarify per iniziare con le attività di spiegabilità e distorsione dei modelli. Queste attività includono la creazione di un processo di elaborazione, l'addestramento di un modello di machine learning (ML) e il monitoraggio delle previsioni dei modelli:

Casi speciali

I seguenti taccuini mostrano come utilizzare SageMaker Clarify per casi speciali, ad esempio all'interno del proprio contenitore e per attività di elaborazione del linguaggio naturale:

È stato verificato che questi notebook funzionino in Amazon SageMaker Studio Classic. Se hai bisogno di istruzioni su come aprire un notebook in Studio Classic, consulta. Crea o apri un notebook Amazon SageMaker Studio Classic Se ti viene richiesto di scegliere un kernel, scegli Python 3 (Data Science).