Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Algoritmo di analisi dei componenti principali (PCA)
PCAè un algoritmo di apprendimento automatico non supervisionato che tenta di ridurre la dimensionalità (numero di funzionalità) all'interno di un set di dati pur conservando quante più informazioni possibili. Ciò è possibile individuando un nuovo insieme di caratteristiche denominate componenti, che sono compositi delle caratteristiche originali non correlate le une alle altre. Inoltre, le componenti sono vincolate in modo che la prima di esse rappresenti la maggiore variabilità possibile nei dati, la seconda componente la seconda maggiore variabilità e così via.
In Amazon SageMaker, PCA funziona in due modalità, a seconda dello scenario:
-
regular (normale): per i set di dati con dati a densità bassa e un numero modesto di osservazioni e caratteristiche.
-
randomized (randomizzata): per i set di dati con un elevato numero di osservazioni e caratteristiche. Questo modo adotta un algoritmo di approssimazione.
PCAutilizza dati tabulari.
Le righe rappresentano le osservazioni da integrare in uno spazio dimensionale inferiore. Le colonne rappresentano le caratteristiche per le quali individuare un'approssimazione ridotta. L'algoritmo calcola la matrice di covarianza (o una sua approssimazione in modo distribuito), quindi esegue la decomposizione dei singoli valori sul riepilogo per produrre le componenti principali.
Argomenti
Interfaccia di input/output per l'algoritmo PCA
Per l'addestramento, PCA prevede i dati forniti nel canale ferroviario e, facoltativamente, supporta un set di dati passato al set di dati di test, che viene valutato dall'algoritmo finale. I formati recordIO-wrapped-protobuf
e CSV
sono supportati per l’addestramento. Puoi utilizzare la modalità file o la modalità pipe per addestrare i modelli sui dati formattati come recordIO-wrapped-protobuf
o CSV
.
Per l'inferenza, supporti ePCA. text/csv
application/json
application/x-recordio-protobuf
I risultati vengono restituiti nei formati application/json
o application/x-recordio-protobuf
con un vettore di "previsioni".
Per ulteriori informazioni sui formati di file di input e output, consulta PCAFormati di risposta per l'inferenza e i Notebook di esempio PCA.
EC2Raccomandazione di istanza per l'algoritmo PCA
PCAsupporti CPU e GPU istanze per l'addestramento e l'inferenza. Il tipo di istanza con maggiori prestazioni dipende fortemente dalle specifiche dei dati di input. GPUAd esempio, PCA supporta P2, P3, G4dn e G5.
Notebook di esempio PCA
Per un taccuino di esempio che mostra come utilizzare l'algoritmo SageMaker Principal Component Analysis per analizzare le immagini delle cifre scritte a mano da zero a nove nel set di dati, vedi An Introduction to with. MNIST PCA MNIST