Algoritmo de análisis de componentes principales (PCA) - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Algoritmo de análisis de componentes principales (PCA)

PCAes un algoritmo de aprendizaje automático no supervisado que intenta reducir la dimensionalidad (número de características) de un conjunto de datos y, al mismo tiempo, conservar la mayor cantidad de información posible. Esto se realiza buscando un nuevo conjunto de características denominado componentes, que son los compuestos de las características originales que no son correlativas entre sí. También están limitadas, por lo que el primer componente implica la máxima variabilidad posible en los datos y el segundo componente la segunda variabilidad máxima y así sucesivamente.

En Amazon SageMaker, PCA funciona en dos modos, según el escenario:

  • normal: para conjuntos de datos con datos dispersos y un número moderado de observaciones y características.

  • aleatorio: para conjuntos de datos con un gran número de observaciones y características. Este modo utiliza un algoritmo de aproximación.

PCAutiliza datos tabulares.

Las filas representan las observaciones que desea incrustar en un espacio dimensional inferior. Las columnas representan las características para las que desea buscar una aproximación reducida. El algoritmo calcula la matriz de covarianza (o una aproximación de la misma de manera distribuida) y, a continuación, realiza la descomposición del valor singular en este resumen para producir los componentes principales.

Interfaz de entrada/salida para el algoritmo PCA

Para el entrenamiento, PCA espera los datos proporcionados en el canal del tren y, opcionalmente, admite un conjunto de datos que se pasa al conjunto de datos de prueba, que se puntúa con el algoritmo final. Tanto el formato recordIO-wrapped-protobuf como CSV son compatibles con la capacitación. Puede usar el modo de archivo o el modo de canalización para capacitar modelos con datos con formato recordIO-wrapped-protobuf o CSV.

A modo de inferencia text/csvapplication/json, PCA apoya yapplication/x-recordio-protobuf. Los resultados se devuelven en formato application/json o application/x-recordio-protobuf con un vector de "proyecciones".

Para obtener más información sobre los formatos de archivo de entrada y salida, consulte PCAFormatos de respuesta para inferencia y Blocs de notas de muestra de PCA.

EC2Recomendación de instancia para el algoritmo PCA

PCAsoportes CPU e GPU instancias para el entrenamiento y la inferencia. El tipo de instancia con un mayor desempeño depende en gran medida de los detalles de los datos de entrada. Por ejemploGPU, PCA es compatible con P2, P3, G4dn y G5.

Blocs de notas de muestra de PCA

Para ver un ejemplo de cuaderno que muestra cómo usar el algoritmo de análisis de componentes SageMaker principales para analizar las imágenes de dígitos manuscritos del cero al nueve en el MNIST conjunto de datos, consulte Introducción a with. PCA MNIST Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas con las que puede ejecutar el ejemplo, consulte. SageMaker Instancias de Amazon SageMaker Notebook Una vez que haya creado una instancia de bloc de notas y la haya abierto, seleccione la pestaña SageMaker Ejemplos para ver una lista de todos los SageMaker ejemplos. El tema Modelado de cuadernos de ejemplo con los NTM algoritmos se encuentra en la sección Introducción a los algoritmos de Amazon. Para abrir un cuaderno, haga clic en la pestaña Usar y seleccione Crear copia.