Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Algoritmo de análisis de componente principal (PCA)
PCA es un algoritmo de machine learning no supervisado que intenta reducir la dimensionalidad (número de características) dentro de un conjunto de datos mientras retiene toda la información posible. Esto se realiza buscando un nuevo conjunto de características denominado componentes, que son los compuestos de las características originales que no son correlativas entre sí. También están limitadas, por lo que el primer componente implica la máxima variabilidad posible en los datos y el segundo componente la segunda variabilidad máxima y así sucesivamente.
En Amazon SageMaker AI, la PCA funciona de dos modos, según el escenario:
-
normal: para conjuntos de datos con datos dispersos y un número moderado de observaciones y características.
-
aleatorio: para conjuntos de datos con un gran número de observaciones y características. Este modo utiliza un algoritmo de aproximación.
PCA utiliza datos tabulares.
Las filas representan las observaciones que desea incrustar en un espacio dimensional inferior. Las columnas representan las características para las que desea buscar una aproximación reducida. El algoritmo calcula la matriz de covarianza (o una aproximación de la misma de manera distribuida) y, a continuación, realiza la descomposición del valor singular en este resumen para producir los componentes principales.
Temas
Interfaz de entrada/salida para el algoritmo PCA
Para la capacitación, PCA espera que se proporcionen datos en el canal de capacitación y admite de forma opcional un conjunto de datos pasado en el conjunto de datos de prueba, que se puntúa mediante el algoritmo final. Tanto el formato recordIO-wrapped-protobuf
como CSV
son compatibles con la capacitación. Puede usar el modo de archivo o el modo de canalización para capacitar modelos con datos con formato recordIO-wrapped-protobuf
o CSV
.
Para la inferencia, PCA admite text/csv
, application/json
y application/x-recordio-protobuf
. Los resultados se devuelven en formato application/json
o application/x-recordio-protobuf
con un vector de "proyecciones".
Para obtener más información sobre los formatos de archivo de entrada y salida, consulte Formatos de respuesta de PCA para inferencia y Bloc de notas de muestra de PCA.
EC2 Recomendación de instancia para el algoritmo PCA
La PCA admite instancias de CPU y GPU para el entrenamiento y la inferencia. El tipo de instancia con un mayor desempeño depende en gran medida de los detalles de los datos de entrada. Para las instancias de GPU, PCA admite P2, P3, G4dn y G5.
Bloc de notas de muestra de PCA
Para ver un ejemplo de cuaderno que muestra cómo utilizar el algoritmo de análisis de componentes principales de la SageMaker IA para analizar las imágenes de dígitos manuscritos del cero al nueve en el conjunto de datos del MNIST, consulte Introducción al PCA