L'importanza della trasformazione delle caratteristiche

Si prenda, ad esempio, un modello di machine learning il cui compito è decidere se una transazione di carta di credito è fraudolenta o meno. In base alle conoscenze generali delle applicazioni e all'analisi dei dati, è possibile decidere quali campi dati (o caratteristiche) siano importanti ai fini dell'inclusione nei dati di input. Ad esempio, l'importo della transazione, il nome del venditore, l'indirizzo e l'indirizzo del proprietario della carta di credito sono importanti per il processo di apprendimento. Viceversa, un ID transazione casuale non apporta alcuna informazione (se sappiamo che è veramente casuale) e non è utile.

Una volta deciso i campi da includere, si trasformano queste caratteristiche per semplificare il processo di apprendimento. Le trasformazioni aggiungono l'esperienza precedente ai dati di input, consentendo al modello di machine learning di trarre vantaggio da tale esperienza. Ad esempio, il seguente indirizzo del venditore è rappresentato da una stringa:

"123 Main Street, Seattle, WA 98101"

In sé, l'indirizzo ha un potere espressivo limitato: è utile solo per i pattern di apprendimento associati a quell'indirizzo esatto. La sua suddivisione in base a elementi costitutivi, tuttavia, è in grado di creare caratteristiche aggiuntive come "Indirizzo" (123 Main Street), "Città" (Seattle), "Stato" (WA) e "CAP" (98101). L'algoritmo di apprendimento può raggruppare transazioni più disparate e individuare pattern più ampi, e forse anche un'esperienza relativa ad alcuni codici postali di venditori con più attività fraudolenta di altri.

Per ulteriori informazioni sull'approccio e il processo relativi alla trasformazione delle caratteristiche, consultare Concetti di Machine Learning.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Trasformazioni dei dati per il Machine Learning

Trasformazioni delle caratteristiche con le composizioni dati