Algoritmo di analisi dei componenti principali (PCA) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Algoritmo di analisi dei componenti principali (PCA)

PCAè un algoritmo di apprendimento automatico non supervisionato che tenta di ridurre la dimensionalità (numero di funzionalità) all'interno di un set di dati pur conservando quante più informazioni possibili. Ciò è possibile individuando un nuovo insieme di caratteristiche denominate componenti, che sono compositi delle caratteristiche originali non correlate le une alle altre. Inoltre, le componenti sono vincolate in modo che la prima di esse rappresenti la maggiore variabilità possibile nei dati, la seconda componente la seconda maggiore variabilità e così via.

In Amazon SageMaker, PCA funziona in due modalità, a seconda dello scenario:

  • regular (normale): per i set di dati con dati a densità bassa e un numero modesto di osservazioni e caratteristiche.

  • randomized (randomizzata): per i set di dati con un elevato numero di osservazioni e caratteristiche. Questo modo adotta un algoritmo di approssimazione.

PCAutilizza dati tabulari.

Le righe rappresentano le osservazioni da integrare in uno spazio dimensionale inferiore. Le colonne rappresentano le caratteristiche per le quali individuare un'approssimazione ridotta. L'algoritmo calcola la matrice di covarianza (o una sua approssimazione in modo distribuito), quindi esegue la decomposizione dei singoli valori sul riepilogo per produrre le componenti principali.

Interfaccia di input/output per l'algoritmo PCA

Per l'addestramento, PCA prevede i dati forniti nel canale ferroviario e, facoltativamente, supporta un set di dati passato al set di dati di test, che viene valutato dall'algoritmo finale. I formati recordIO-wrapped-protobuf e CSV sono supportati per l’addestramento. Puoi utilizzare la modalità file o la modalità pipe per addestrare i modelli sui dati formattati come recordIO-wrapped-protobuf o CSV.

Per l'inferenza, supporti ePCA. text/csv application/json application/x-recordio-protobuf I risultati vengono restituiti nei formati application/json o application/x-recordio-protobuf con un vettore di "previsioni".

Per ulteriori informazioni sui formati di file di input e output, consulta PCAFormati di risposta per l'inferenza e i Notebook di esempio PCA.

EC2Raccomandazione di istanza per l'algoritmo PCA

PCAsupporti CPU e GPU istanze per l'addestramento e l'inferenza. Il tipo di istanza con maggiori prestazioni dipende fortemente dalle specifiche dei dati di input. GPUAd esempio, PCA supporta P2, P3, G4dn e G5.

Notebook di esempio PCA

Per un taccuino di esempio che mostra come utilizzare l'algoritmo SageMaker Principal Component Analysis per analizzare le immagini delle cifre scritte a mano da zero a nove nel set di dati, vedi An Introduction to with. MNIST PCA MNIST Per istruzioni su come creare e accedere alle istanze di notebook Jupyter che è possibile utilizzare per eseguire l'esempio, vedere. SageMaker Istanze Amazon SageMaker Notebook Dopo aver creato un'istanza di notebook e averla aperta, seleziona la scheda SageMaker Esempi per visualizzare un elenco di tutti gli esempi. SageMaker L'argomento relativo alla modellazione di notebook che utilizzano NTM gli algoritmi si trova nella sezione Introduzione agli algoritmi di Amazon. Per aprire un notebook, fai clic sulla relativa scheda Use (Utilizza) e seleziona Create copy (Crea copia).