Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
PCA è un algoritmo di Machine Learning non supervisionato che tenta di ridurre la dimensionalità (numero di caratteristiche) in un set di dati pur mantenendo la maggior quantità possibile di informazioni. Ciò è possibile individuando un nuovo insieme di caratteristiche denominate componenti, che sono compositi delle caratteristiche originali non correlate le une alle altre. Inoltre, le componenti sono vincolate in modo che la prima di esse rappresenti la maggiore variabilità possibile nei dati, la seconda componente la seconda maggiore variabilità e così via.
In Amazon SageMaker AI, la PCA opera in due modalità, a seconda dello scenario:
-
regular (normale): per i set di dati con dati a densità bassa e un numero modesto di osservazioni e caratteristiche.
-
randomized (randomizzata): per i set di dati con un elevato numero di osservazioni e caratteristiche. Questo modo adotta un algoritmo di approssimazione.
L'algoritmo PCA utilizza i dati tabulari.
Le righe rappresentano le osservazioni da integrare in uno spazio dimensionale inferiore. Le colonne rappresentano le caratteristiche per le quali individuare un'approssimazione ridotta. L'algoritmo calcola la matrice di covarianza (o una sua approssimazione in modo distribuito), quindi esegue la decomposizione dei singoli valori sul riepilogo per produrre le componenti principali.
Argomenti
Interfaccia di input/output per l'algoritmo PCA
Per l’addestramento, PCA si aspetta i dati forniti nel canale di addestramento e, facoltativamente, supporta un set di dati passato al set di dati di test, che viene valutato dall'algoritmo finale. I formati recordIO-wrapped-protobuf
e CSV
sono supportati per l’addestramento. Puoi utilizzare la modalità file o la modalità pipe per addestrare i modelli sui dati formattati come recordIO-wrapped-protobuf
o CSV
.
Per l'interferenza, l'algoritmo PCA supporta text/csv
, application/json
e application/x-recordio-protobuf
. I risultati vengono restituiti nei formati application/json
o application/x-recordio-protobuf
con un vettore di "previsioni".
Per ulteriori informazioni sui formati di file di input e output, consulta Formati della risposta PCA per l'inferenza e i Notebook di esempio di PCA.
EC2 Raccomandazione di istanza per l'algoritmo PCA
PCA supporta istanze CPU e GPU per l'addestramento e l'inferenza. Il tipo di istanza con maggiori prestazioni dipende fortemente dalle specifiche dei dati di input. Per le istanze GPU, PCA supporta P2, P3, G4dn e G5.
Notebook di esempio di PCA
Per un taccuino di esempio che mostra come utilizzare l'algoritmo SageMaker AI Principal Component Analysis per analizzare le immagini di cifre scritte a mano da zero a nove nel set di dati MNIST, vedere Un'introduzione