Squilibrio di classe (CI)

Il bias dello squilibrio di classe (CI) si verifica quando un valore di facet d ha meno esempi di addestramento rispetto a un altro facet a del set di dati. Questo perché i modelli si adattano preferibilmente ai facet più grandi a scapito dei facet più piccoli e quindi possono comportare un errore di addestramento più elevato per il facet d. I modelli corrono inoltre un rischio maggiore di overfitting dei set di dati più piccoli, il che può causare un errore di test maggiore per il facet d. Consideriamo l'esempio in cui un modello di machine learning viene addestrato principalmente su dati di individui di mezza età (facet a); potrebbe essere meno accurato nell'effettuare previsioni che riguardano persone giovani e anziane (facet d).

La formula per la misura (normalizzata) dello squilibrio dei facet:

CI = (n_a - n_d)/(n_a + n_d)

Dove n_a è il numero di membri del facet a e n_d il numero per il facet d. I suoi valori variano nell'intervallo [-1, 1].

I valori CI positivi indicano che il facet a contiene più esempi di addestramento nel set di dati e un valore 1 indica che i dati contengono solo membri del facet a.
I valori di CI vicini allo zero indicano una distribuzione più equa dei membri tra i facet e un valore pari a zero indica una partizione perfettamente uguale tra i facet e rappresenta una distribuzione equilibrata degli esempi nei dati di addestramento.
I valori CI negativi indicano che il facet d contiene più esempi di addestramento nel set di dati e un valore -1 indica che i dati contengono solo membri del facet d.
I valori di CI vicini ai valori estremi di -1 o 1 sono molto squilibrati e corrono un rischio sostanziale di fare previsioni di parte.

Se si riscontra uno squilibrio significativo tra i facet, è consigliabile riequilibrare l'esempio prima di procedere all'addestramento dei modelli su di esso.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Metriche di bias pre-addestramento

Squilibrio dell'etichetta () DPL