Input/Output Interfaccia per l'algoritmo PCA Raccomandazione istanza EC2 per l'algoritmo PCA Notebook di esempio

Algoritmo PCA (Principal Component Analysis)

PCA è un algoritmo di Machine Learning non supervisionato che tenta di ridurre la dimensionalità (numero di caratteristiche) in un set di dati pur mantenendo la maggior quantità possibile di informazioni. Ciò è possibile individuando un nuovo insieme di caratteristiche denominate componenti, che sono compositi delle caratteristiche originali non correlate le une alle altre. Inoltre, le componenti sono vincolate in modo che la prima di esse rappresenti la maggiore variabilità possibile nei dati, la seconda componente la seconda maggiore variabilità e così via.

In Amazon SageMaker AI, la PCA opera in due modalità, a seconda dello scenario:

regular (normale): per i set di dati con dati a densità bassa e un numero modesto di osservazioni e caratteristiche.
randomized (randomizzata): per i set di dati con un elevato numero di osservazioni e caratteristiche. Questo modo adotta un algoritmo di approssimazione.

L'algoritmo PCA utilizza i dati tabulari.

Le righe rappresentano le osservazioni da integrare in uno spazio dimensionale inferiore. Le colonne rappresentano le caratteristiche per le quali individuare un'approssimazione ridotta. L'algoritmo calcola la matrice di covarianza (o una sua approssimazione in modo distribuito), quindi esegue la decomposizione dei singoli valori sul riepilogo per produrre le componenti principali.

Argomenti

Input/Output Interfaccia per l'algoritmo PCA
Raccomandazione istanza EC2 per l'algoritmo PCA
Notebook di esempio di PCA
Come funziona l'algoritmo PCA
Iperparametri PCA
Formati della risposta PCA

Input/Output Interfaccia per l'algoritmo PCA

Per l’addestramento, PCA si aspetta i dati forniti nel canale di addestramento e, facoltativamente, supporta un set di dati passato al set di dati di test, che viene valutato dall'algoritmo finale. I formati recordIO-wrapped-protobuf e CSV sono supportati per l’addestramento. Puoi utilizzare la modalità file o la modalità pipe per addestrare i modelli sui dati formattati come recordIO-wrapped-protobuf o CSV.

Per l'interferenza, l'algoritmo PCA supporta text/csv, application/json e application/x-recordio-protobuf. I risultati vengono restituiti nei formati application/json o application/x-recordio-protobuf con un vettore di "previsioni".

Per ulteriori informazioni sui formati di file di input e output, consulta Formati della risposta PCA per l'inferenza e i Notebook di esempio di PCA.

Raccomandazione istanza EC2 per l'algoritmo PCA

PCA supporta istanze CPU e GPU per l'addestramento e l'inferenza. Il tipo di istanza con maggiori prestazioni dipende fortemente dalle specifiche dei dati di input. Per le istanze GPU, PCA supporta P2, P3, G4dn e G5.

Notebook di esempio di PCA

Per un taccuino di esempio che mostra come utilizzare l'algoritmo SageMaker AI Principal Component Analysis per analizzare le immagini di cifre scritte a mano da zero a nove nel set di dati MNIST, vedere Un'introduzione alla PCA con MNIST. Per istruzioni su come creare e accedere alle istanze di notebook Jupyter da utilizzare per eseguire l'esempio in AI, consulta. SageMaker Istanze SageMaker per notebook Amazon Dopo aver creato un'istanza di notebook e averla aperta, seleziona la scheda Esempi SageMaker AI per visualizzare un elenco di tutti gli esempi di IA. SageMaker I notebook di esempio di modellazione dell'argomento che utilizzano gli algoritmi NTM sono disponibili nella sezione con l'introduzione agli algoritmi di Amazon. Per aprire un notebook, fai clic sulla relativa scheda Use (Utilizza) e seleziona Create copy (Crea copia).

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Formati di inferenza

Come funziona