Informazioni sul modello binario - Amazon Machine Learning

Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorneremo più. Per ulteriori informazioni, consulta la paginaCos'è Amazon Machine Learning.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Informazioni sul modello binario

Interpretazione delle previsioni

L'output effettivo di molti algoritmi di classificazione binaria è un punteggio di previsione. Il punteggio indica la certezza del sistema che una data osservazione appartenga alla classe positiva (l'effettivo valore di destinazione è 1). I modelli di classificazione binaria in Amazon ML producono un punteggio che varia da 0 a 1. In quanto consumatore di questo punteggio, per decidere se l'osservazione debba essere classificata come 1 o 0, si interpreterà il punteggio scegliendo una soglia di classificazione o limite (cut-off) e si confronterà il punteggio con tale soglia. Le eventuali osservazioni con punteggio superiore al limite vengono considerate come target = 1 mentre quelle con punteggio inferiore come target = 0.

In Amazon ML, il punteggio limite predefinito è 0,5. È possibile scegliere di aggiornare questo limite per soddisfare le tue esigenze aziendali. È possibile utilizzare le visualizzazioni nella console per comprendere il modo in cui la scelta del limite influenzerà l'applicazione.

Misurazione dell'accuratezza del modello ML

Amazon ML fornisce un parametro di accuratezza standard del settore per i modelli di classificazione binaria denominati AUC (Area Under the Curve) ROC (Receiver Operating Chatteristic). L'AUC misura la capacità del modello ML di prevedere un punteggio più elevato per gli esempi positivi rispetto agli esempi negativi. Poiché è indipendente dal punteggio limite, è possibile farsi un'idea dell'accuratezza del modello attraverso il parametro AUC, senza selezionare una soglia.

Il parametro AUC restituisce un valore decimale compreso tra 0 e 1. I valori di AUC prossimi a 1 indicano un modello di ML estremamente accurato. I valori vicino a 0,5 indicano un modello ML equivalente all'indovinare a caso. È insolito vedere valori vicino a 0 e in genere indicano un problema con i dati. Essenzialmente, un'AUC vicino a 0 dice che il modello ML ha appreso i pattern corretti, ma li sta utilizzando per fare previsioni che sono capovolte rispetto dalla realtà (gli 0 sono previsti come 1 e viceversa). Per ulteriori informazioni sull'AUC, consultare la pagina Receiver operating characteristic di Wikipedia.

La baseline del parametro AUC per un modello binario è 0,5. È il valore di un ipotetico modello ML che prevede in modo casuale una risposta 1 o 0. Il modello ML binario deve ottenere prestazioni superiori a questo valore per essere utile.

Utilizzo della Performance Visualization

Per valutare l'accuratezza del modello ML, è possibile esaminare i grafici delValutazionepagina sulla console Amazon ML. Questa pagina mostra due istogrammi: a) un istogramma dei punteggi per i positivi effettivi (il target è 1) e b) un istogramma dei punteggi per i negativi effettivi (il target è 0) nei dati di valutazione.

Un modello ML che dispone di buona accuratezza predittiva sarà in grado di prevedere punteggi più elevati per gli 1 effettivi e punteggi inferiori per gli 0 effettivi. Un modello perfetto avrà due istogrammi a due estremità differenti dell'asse x che mostrano che tutti i punteggi positivi effettivi hanno ottenuto punteggi elevati e che tutti i negativi effettivi hanno ottenuto punteggi bassi. Tuttavia, i modelli ML commettono errori e un grafico tipico mostrerà che i due istogrammi si sovrappongono in corrispondenza di determinati punteggi. Un modello con prestazioni estremamente scarse non sarà in grado di distinguere tra le classi positive e negative ed entrambe le classi avranno per lo più istogrammi che si sovrappongono.

image49

Utilizzando le visualizzazioni, è possibile individuare il numero di previsioni che ricadono nei due tipi di previsioni corrette e nei due tipi di previsioni errate.

Previsioni corrette

  • Vero positivo (True positive, TP Amazon ML ha previsto il valore come 1 e il valore true è 1.

  • Vero negativo (True negative, TN Amazon ML ha previsto il valore come 0 e il valore true è 0.

Previsioni errate

  • Falso positivo (False positive, FP): Amazon ML ha previsto il valore come 1, ma il valore true è 0.

  • Falso negativo (False negative, FN): Amazon ML ha previsto il valore come 0, ma il valore true è 1.

Nota

Il numero di TP, TN, FP e FN dipende dalla soglia selezionata per il punteggio e l'ottimizzazione per uno qualsiasi di questi numeri significherebbe fare un compromesso sugli altri. Un numero elevato di TP spesso comporta un numero elevato di FP e un basso numero di TN.

Regolazione del punteggio soglia

I modelli ML funzionano generando punteggi di previsione numerici, pertanto l'applicazione di un cut-off converte questi punteggi in etichette binarie 0/1. Modificando il punteggio soglia, è possibile regolare il comportamento del modello quando fa un errore. SulValutazionenella console di Amazon ML, è possibile esaminare l'impatto di vari punteggi limite e salvare quello da utilizzare per il modello.

Quando si regola il punteggio soglia, si osserva il trade-off tra i due tipi di errori. Spostando la soglia a sinistra si acquisiscono più veri positivi, ma il trade-off consiste in un aumento del numero di errori relativi ai falsi positivi. Spostandolo a destra acquisisce meno errori relativi ai falsi positivi, ma il trade-off è che salta alcuni veri positivi. Per l'applicazione predittiva, si decide che tipo di errore è più tollerabile selezionando un punteggio soglia adeguato.

Revisione dei parametri avanzati

Amazon ML fornisce i seguenti parametri aggiuntivi per misurare l'accuratezza predittiva del modello ML: accuratezza, precisione, recall e percentuale di falsi positivi.

Accuratezza

Accuracy (Accuratezza) (ACC) misura la percentuale di previsioni corrette. L'intervallo è compreso tra 0 e 1. Un valore maggiore indica una migliore accuratezza predittiva:

image50

Precisione

Precision (Precisione) misura la percentuale di positivi effettivi tra gli esempi previsti come positivi. L'intervallo è compreso tra 0 e 1. Un valore maggiore indica una migliore accuratezza predittiva:

image51

Recall

Recall (Richiamata) misura la percentuale di positivi effettivi previsti come positivi. L'intervallo è compreso tra 0 e 1. Un valore maggiore indica una migliore accuratezza predittiva:

image52

Percentuale di falsi positivi

False positive rate (Percentuale falsi positivi) (FPR) misura il la percentuale di falsi allarmi o la percentuale di negativi effettivi previsti come positivi. L'intervallo è compreso tra 0 e 1. Un valore minore indica una migliore accuratezza predittiva:

image53

A seconda del problema aziendale, si potrebbe essere più interessati a un modello che esegua correttamente uno specifico sottoinsieme di questi parametri. Ad esempio, due applicazioni aziendali potrebbe avere requisiti molto diversi per il loro modello ML:

  • Un'applicazione potrebbe essere molto sicura che le previsioni positive siano effettivamente positive (elevata precisione) e potersi permettere di classificare erroneamente alcuni esempi positivi come negativi (recall moderato).

  • Un'altra applicazione potrebbe dover prevedere correttamente tutti gli esempi positivi possibile (recall elevato) e accetterà l'errata classificazione solo di alcuni esempi negativi come positivi (precisione moderata).

Amazon ML consente di scegliere un punteggio soglia che corrisponda ad un determinato valore di uno qualsiasi dei precedenti parametri avanzati. Mostra inoltre i trade-off legati all'ottimizzazione di qualsiasi parametro. Ad esempio, se si seleziona una soglia che corrisponde ad un'elevata precisione, è in genere necessario effettuare un trade-off con un minore recall.

Nota

È necessario salvare il punteggio soglia al fine di renderlo effettivo per la classificazione delle future previsioni da parte del modello ML.