Differenza nelle proporzioni delle etichette () DPL - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Differenza nelle proporzioni delle etichette () DPL

La differenza nelle proporzioni delle etichette (DPL) confronta la proporzione di risultati osservati con etichette positive per la sfaccettatura d con la proporzione di risultati osservati con etichette positive della sfaccettatura a in un set di dati di formazione. Ad esempio, è possibile utilizzarla per confrontare la proporzione di individui di mezza età (facet a) e di altri gruppi di età (facet d) che hanno ricevuto l'approvazione per prestiti finanziari. I modelli di machine learning cercano di imitare il più fedelmente possibile le decisioni dei dati di addestramento. Quindi DPL è probabile che un modello di apprendimento automatico addestrato su un set di dati con un valore elevato rifletta lo stesso squilibrio nelle sue previsioni future.

La formula per la differenza nelle proporzioni delle etichette è la seguente:

        DPL= (q - qa) d

Dove:

  • qa = na(1)/na è la proporzione del facet a con un valore di etichetta osservato pari a 1. Ad esempio, la proporzione di persone di mezza età che ottiene l'approvazione per i prestiti. Qui na(1) rappresenta il numero di membri del facet a che ottengono un esito positivo e na è il numero di membri del facet a.

  • qd = nd(1)/nd è la proporzione del facet d con un valore di etichetta osservato pari a 1. Ad esempio, la proporzione di persone non di mezza età che ottiene l'approvazione per i prestiti. Qui nd(1) rappresenta il numero di membri del facet d che ottengono un esito positivo e nd è il numero di membri del facet d.

Se DPL è abbastanza vicino a 0, allora diciamo che la parità demografica è stata raggiunta.

Per le etichette sfaccettate binarie e multicategorie, i DPL valori variano nell'intervallo (-1, 1). Per le etichette continue, impostiamo una soglia per comprimere le etichette in formato binario.

  • DPLI valori positivi indicano che la sfaccettatura a ha una percentuale maggiore di risultati positivi rispetto alla faccetta d.

  • I valori DPL prossimi allo zero indicano una proporzione più equa di risultati positivi tra le sfaccettature, mentre un valore pari a zero indica una perfetta parità demografica.

  • DPLI valori negativi indicano che la sfaccettatura d ha una percentuale maggiore di risultati positivi rispetto alla sfaccettatura a.

Il fatto che un'elevata entità di DPL sia problematica varia da una situazione all'altra. In un caso problematico, un'entità elevata DPL potrebbe essere un segnale di problemi alla base dei dati. Ad esempio, un set di dati con valori elevati DPL potrebbe riflettere pregiudizi o pregiudizi storici nei confronti di gruppi demografici basati sull'età, fattori che non sarebbero auspicabili per un modello da apprendere.