Data Bias prima dell'allenamento - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Data Bias prima dell'allenamento

I bias algoritmici, la discriminazione, l'equità e gli argomenti correlati sono stati studiati in discipline come legge, politica e informatica. Un sistema informatico potrebbe essere considerato di parte se discrimina determinati individui o gruppi di individui. I modelli di machine learning alla base di queste applicazioni apprendono dai dati e questi dati potrebbero riflettere disparità o altri bias intrinseci. Ad esempio, i dati di addestramento potrebbero non avere una rappresentazione sufficiente dei vari gruppi demografici o contenere etichette di parte. I modelli di machine learning addestrati su set di dati che presentano questi bias potrebbero finire per apprenderli e quindi riprodurre o addirittura aggravare tali bias nelle loro previsioni. Il campo del machine learning offre l'opportunità di affrontare i bias rilevandoli e misurandoli in ogni fase del ciclo di vita del machine learning. Puoi utilizzare Amazon SageMaker Clarify per determinare se i dati utilizzati per i modelli di formazione codificano eventuali distorsioni.

I bias possono essere misurati prima e dopo l'addestramento e monitorati rispetto alle linee di base dopo aver distribuito i modelli sugli endpoint a scopo di inferenza. Le metriche di bias pre-addestramento sono progettate per rilevare e misurare i bias nei dati non elaborati prima che vengano utilizzati per addestrare un modello. Le metriche utilizzate sono indipendenti dal modello perché non dipendono dagli output del modello. Tuttavia, esistono diversi concetti di equità che richiedono misure distinte di bias. Amazon SageMaker Clarify fornisce parametri di distorsione per quantificare vari criteri di equità.

Per ulteriori informazioni sulle metriche di distorsione, consulta Scopri come Amazon SageMaker Clarify aiuta a rilevare pregiudizi e misure di equità per il Machine Learning in Finance.

Amazon SageMaker chiarisce i termini relativi a parzialità ed equità

SageMaker Clarify utilizza la seguente terminologia per parlare di pregiudizi e correttezza.

Funzionalità

Una proprietà o caratteristica misurabile individuale di un fenomeno osservato, contenuta in una colonna per dati tabulari.

Etichetta

Funzionalità che è l'obiettivo di addestramento di un modello di machine learning. Denominata etichetta osservata o risultato osservato.

Etichetta prevista

L'etichetta come prevista dal modello. Chiamata anche risultato previsto.

Project N.E.M.O.

Un'entità osservata descritta dai valori delle funzionalità e dal valore dell'etichetta, contenuta in una riga per dati tabulari.

Set di dati

Una raccolta di campioni.

Bias

Uno squilibrio nei dati di addestramento o nel comportamento di previsione del modello tra diversi gruppi, come l'età o la fascia di reddito. I bias possono derivare dai dati o dall'algoritmo utilizzati per addestrare il modello. Ad esempio, se un modello di machine learning viene addestrato principalmente su dati di individui di mezza età, può essere meno accurato quando si effettuano previsioni che coinvolgono persone giovani e anziane.

Metrica di bias

Una funzione che restituisce valori numerici che indicano il livello di un potenziale bias.

Report di bias

Una raccolta di metriche di bias per un determinato set di dati o una combinazione di un set di dati e un modello.

Valori dell'etichetta positivi

Valori dell'etichetta favorevoli a un gruppo demografico osservati in un esempio. In altre parole, indica che un esempio ha un risultato positivo.

Valori dell'etichetta negativi

Valori dell'etichetta sfavorevoli a un gruppo demografico osservati in un esempio. In altre parole, indica che un esempio ha un risultato negativo.

Variabile del gruppo

Colonna categoriale del set di dati utilizzata per formare sottogruppi per la misurazione della disparità demografica condizionata (). CDD Richiesta solo per questa metrica per quanto riguarda il paradosso di Simpson.

Facet

Una colonna o una funzionalità che contiene gli attributi rispetto ai quali viene misurato il bias.

Valore del facet

I valori delle funzionalità degli attributi che il bias potrebbe favorire o sfavorire.

Probabilità prevista

La probabilità, prevista dal modello, che un esempio abbia un esito positivo o negativo.

Notebook di esempio

Amazon SageMaker Clarify fornisce il seguente notebook di esempio per il rilevamento delle distorsioni:

È stato verificato che questo notebook funzioni solo in Amazon SageMaker Studio. Se hai bisogno di istruzioni su come aprire un notebook in Amazon SageMaker Studio, consultaCrea o apri un notebook Amazon SageMaker Studio Classic. Se ti viene richiesto di scegliere un kernel, scegli Python 3 (Data Science).