As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Algoritmo de análise de componentes principais (PCA)
PCAé um algoritmo de aprendizado de máquina não supervisionado que tenta reduzir a dimensionalidade (número de recursos) em um conjunto de dados e, ao mesmo tempo, reter o máximo de informações possível. Para isso, ele encontra um novo conjunto de recursos chamados componentes, que são composições de recursos originais não correlacionados entre si. Eles também são limitados para que o primeiro componente represente a maior variabilidade possível nos dados, o segundo componente, a segunda maior variabilidade, e assim por diante.
Na Amazon SageMaker, PCA opera em dois modos, dependendo do cenário:
-
regular: para conjuntos com dados esparsos e um número moderado de observações e recursos.
-
randomized: para conjuntos de dados com um grande número de observações e recursos. Esse modo usa um algoritmo de aproximação.
PCAusa dados tabulares.
As linhas representam as observações que você deseja incorporar em um menor espaço dimensional. As colunas representam os recursos para os quais você deseja encontrar uma aproximação reduzida. O algoritmo calcula a matriz de covariância (ou uma aproximação, de maneira distribuída) e, em seguida, executa a decomposição de valor singular no resumo em questão para produzir os principais componentes.
Tópicos
Interface de entrada/saída para o algoritmo PCA
Para treinamento, PCA espera dados fornecidos no canal do trem e, opcionalmente, suporta um conjunto de dados passado para o conjunto de dados de teste, que é pontuado pelo algoritmo final. Ambos os formatos recordIO-wrapped-protobuf
e CSV
têm suporte para treinamento. É possível usar o modo de Arquivo ou de Pipe para treinar modelos em dados formatados como recordIO-wrapped-protobuf
ou CSV
.
Para inferência text/csv
application/json
, PCA suportes e. application/x-recordio-protobuf
Os resultados são retornados no formato application/json
ou application/x-recordio-protobuf
com um vetor de "projeções".
Para obter mais informações sobre formatos de arquivo de entrada e saída, consulte PCAFormatos de resposta para inferência e os Amostra de blocos de anotações do PCA.
EC2Recomendação de instância para o PCA algoritmo
PCAsuportes CPU e GPU instâncias para treinamento e inferência. O tipo de instância mais eficiente dependerá muito das especificidades dos dados de entrada. Por GPU exemplo, PCA suporta P2, P3, G4dn e G5.
Amostra de blocos de anotações do PCA
Para obter um exemplo de caderno que mostra como usar o algoritmo de Análise de Componentes SageMaker Principais para analisar as imagens de dígitos manuscritos de zero a nove no MNIST conjunto de dados, consulte Uma introdução ao