Cargas de trabajo de transformación de datos con procesamiento SageMaker - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cargas de trabajo de transformación de datos con procesamiento SageMaker

SageMaker El procesamiento se refiere a las capacidades para ejecutar los datos antes y después SageMaker del procesamiento, realizar tareas de ingeniería y modelar tareas SageMaker de evaluación en una infraestructura totalmente gestionada. Estas tareas se ejecutan como trabajos de procesamiento. A continuación, se proporciona información y recursos para obtener información sobre SageMaker el procesamiento.

Con SageMaker el procesamientoAPI, los científicos de datos pueden ejecutar scripts y cuadernos para procesar, transformar y analizar conjuntos de datos a fin de prepararlos para el aprendizaje automático. Cuando se combina con las demás tareas fundamentales de aprendizaje automático que proporciona SageMaker, como la formación y el alojamiento, Processing le proporciona las ventajas de un entorno de aprendizaje automático totalmente gestionado, que incluye todo el soporte de seguridad y cumplimiento integrado. SageMaker Tiene la flexibilidad de utilizar los contenedores de procesamiento de datos integrados o crear sus propios contenedores para una lógica de procesamiento personalizada y, a continuación, enviar los trabajos para que se ejecuten en una infraestructura SageMaker gestionada.

nota

Puede crear un trabajo de procesamiento mediante programación llamando a la CreateProcessingJobAPIacción en cualquier lenguaje compatible con SageMaker o utilizando el. AWS CLI Para obtener información sobre cómo esta API acción se traduce en una función en el idioma que prefiera, consulte la sección Vea también de CreateProcessingJob y elija una. SDK Como ejemplo, para los usuarios de Python, consulte la sección Amazon SageMaker Processing de SageMaker PythonSDK. Como alternativa, consulte la sintaxis de solicitud completa de create_processing_job en. AWS SDK for Python (Boto3)

En el siguiente diagrama se muestra cómo SageMaker Amazon organiza un trabajo de procesamiento. Amazon SageMaker coge el script, copia los datos del Amazon Simple Storage Service (Amazon S3) y, a continuación, extrae un contenedor de procesamiento. Amazon gestiona completamente la infraestructura subyacente de un trabajo de procesamiento SageMaker. Tras enviar un trabajo de procesamiento, SageMaker lanza las instancias de cómputo, procesa y analiza los datos de entrada y libera los recursos una vez finalizado. El resultado del trabajo de procesamiento se almacena en el bucket de Amazon S3 que especifique.

nota

Los datos de entrada tienen que estar almacenados en un bucket de Amazon S3. Como alternativa, también puede utilizar Amazon Athena o Amazon Redshift como orígenes de entrada.

Ejecución de un trabajo de procesamiento.
sugerencia

Para obtener información sobre las prácticas recomendadas para la computación distribuida de los trabajos de entrenamiento y procesamiento de machine learning (ML) en general, consulte Computación distribuida con SageMaker mejores prácticas.

Usa cuadernos SageMaker de muestra de Amazon Processing

Proporcionamos dos cuadernos de Jupyter de ejemplos que muestran cómo realizar el preprocesamiento de datos, la evaluación de modelos o ambas tareas.

Para ver un ejemplo de cuaderno que muestra cómo ejecutar scripts de scikit-learn para realizar el preprocesamiento de datos y el entrenamiento y la evaluación de modelos con SageMaker Python SDK for Processing, consulte scikit-learn Processing. Este cuaderno también muestra cómo usar su propio contenedor personalizado para ejecutar cargas de trabajo de procesamiento con sus bibliotecas de Python y otras dependencias específicas.

Para ver un ejemplo de bloc de notas que muestra cómo usar Amazon SageMaker Processing para realizar el preprocesamiento de datos distribuidos con Spark, consulta Procesamiento distribuido (Spark). Este cuaderno también muestra cómo entrenar un modelo de regresión utilizando el conjunto XGBoost de datos preprocesado.

Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas, que puede utilizar para ejecutar estos ejemplos, consulte. SageMaker Instancias de Amazon SageMaker Notebook Una vez que haya creado una instancia de bloc de notas y la haya abierto, seleccione la pestaña SageMaker Ejemplos para ver una lista de todas las SageMaker muestras. Para abrir un bloc de notas, elija su pestaña Usar y elija Crear copia.

Supervisa los trabajos SageMaker de procesamiento de Amazon con CloudWatch registros y métricas

Amazon SageMaker Processing proporciona CloudWatch registros y métricas de Amazon para supervisar los trabajos de procesamiento. CloudWatch proporciona métricas de memoria CPUGPU, GPU memoria y disco y registro de eventos. Para obtener más información, consulte Métricas para monitorizar Amazon SageMaker con Amazon CloudWatch y Registra los grupos y las transmisiones que Amazon SageMaker envía a Amazon CloudWatch Logs.