Procesamiento de características con Spark ML y Scikit-learn - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Procesamiento de características con Spark ML y Scikit-learn

Antes de entrenar un modelo con algoritmos SageMaker integrados o personalizados de Amazon, puedes usar los preprocesadores Spark y scikit-learn para transformar tus datos y diseñar funciones.

Procesamiento de características con Spark ML

Puedes ejecutar trabajos de Spark ML con AWS Glue, un servicio sin servidor ETL (extracción, transformación, carga), desde tu SageMaker portátil. También puedes conectarte a EMR clústeres existentes para ejecutar trabajos de Spark ML con Amazon EMR. Para ello, necesitas un rol AWS Identity and Access Management (IAM) que te permita realizar llamadas desde tu SageMaker portátil a AWS Glue.

nota

Para ver qué versiones de Python y Spark son AWS Glue compatibles, consulta las notas de la versión de AWS Glue.

Después de diseñar las funciones, empaquetas y serializas los trabajos de Spark ML MLeap en MLeap contenedores que puedes añadir a un proceso de inferencia. No es necesario utilizar clústeres de Spark administrados externamente. Con este enfoque, puede escalar sin problemas a partir de una muestra de filas a terabytes de datos. Los mismos transformadores trabajar tanto para entrenamiento como para inferencia, por lo que no es necesario duplicar el preprocesamiento y la lógica de ingeniería de características o desarrollar una solución puntual para que persistan los modelos. Con las canalizaciones de inferencia, no es necesario mantenerse fuera de la infraestructura, y puede realizar predicciones directamente a partir de las entradas de datos.

Cuando ejecutas un trabajo de Spark ML AWS Glue, una canalización de Spark ML se serializa en formato. MLeap A continuación, puede utilizar el trabajo con el contenedor de servicio de modelos SparkML en una canalización de SageMaker inferencias. MLeapes un formato de serialización y un motor de ejecución para canalizaciones de aprendizaje automático. Es compatible con Spark, Scikit-learn y TensorFlow para entrenar canalizaciones y exportarlas a una canalización serializada llamada Bundle. MLeap Puedes volver a deserializar los paquetes para convertirlos en Spark para puntuarlos en modo lote o en tiempo de ejecución para potenciar los servicios en tiempo real. MLeap API

Para ver un ejemplo que muestra cómo utilizar el proceso con Spark ML, consulta el artículo Entrenar un modelo de aprendizaje automático con Apache Spark en Amazon EMR e implementarlo en un cuaderno de SageMaker muestra.

Procesamiento de características con Scikit-Learn

Puedes ejecutar y empaquetar trabajos de scikit-learn en contenedores directamente en Amazon. SageMaker Para ver un ejemplo de código Python para crear un modelo de características de scikit-learn que se entrene con el conjunto de datos de flores de iris de Fisher y prediga la especie de iris en función de medidas morfológicas, consulte IRIS Entrenamiento y predicción con Sagemaker Scikit-learn.