Squilibrio di classe (CI) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Squilibrio di classe (CI)

Il bias dello squilibrio di classe (CI) si verifica quando un valore di facet d ha meno esempi di addestramento rispetto a un altro facet a del set di dati. Questo perché i modelli si adattano preferibilmente ai facet più grandi a scapito dei facet più piccoli e quindi possono comportare un errore di addestramento più elevato per il facet d. I modelli corrono inoltre un rischio maggiore di overfitting dei set di dati più piccoli, il che può causare un errore di test maggiore per il facet d. Consideriamo l'esempio in cui un modello di machine learning viene addestrato principalmente su dati di individui di mezza età (facet a); potrebbe essere meno accurato nell'effettuare previsioni che riguardano persone giovani e anziane (facet d).

La formula per la misura (normalizzata) dello squilibrio dei facet:

        CI = (na - nd)/(na + nd)

Dove na è il numero di membri del facet a e nd il numero per il facet d. I suoi valori variano nell'intervallo [-1, 1].

  • I valori CI positivi indicano che il facet a contiene più esempi di addestramento nel set di dati e un valore 1 indica che i dati contengono solo membri del facet a.

  • I valori di CI vicini allo zero indicano una distribuzione più equa dei membri tra i facet e un valore pari a zero indica una partizione perfettamente uguale tra i facet e rappresenta una distribuzione equilibrata degli esempi nei dati di addestramento.

  • I valori CI negativi indicano che il facet d contiene più esempi di addestramento nel set di dati e un valore -1 indica che i dati contengono solo membri del facet d.

  • I valori di CI vicini ai valori estremi di -1 o 1 sono molto squilibrati e corrono un rischio sostanziale di fare previsioni di parte.

Se si riscontra uno squilibrio significativo tra i facet, è consigliabile riequilibrare l'esempio prima di procedere all'addestramento dei modelli su di esso.