Procesamiento de datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Procesamiento de datos

Mientras trabaja con datos de forma interactiva en un flujo de datos de Amazon SageMaker Data Wrangler, Amazon SageMaker Canvas solo aplica las transformaciones a un conjunto de datos de muestra para que pueda previsualizarlos. Una vez finalizado el flujo de datos en SageMaker Canvas, puede procesar todos los datos y guardarlos en una ubicación adecuada para sus flujos de trabajo de aprendizaje automático.

Hay varias opciones para proceder una vez que haya terminado de transformar sus datos en Data Wrangler:

  • Crea un modelo. Puede crear un modelo de Canvas, donde puede empezar directamente a crear un modelo con los datos preparados. Puede crear un modelo después de procesar todo su conjunto de datos o exportando solo los datos de muestra con los que trabajó en Data Wrangler. Canvas guarda los datos procesados (ya sea el conjunto de datos completo o los datos de la muestra) como un conjunto de datos de Canvas.

    Le recomendamos que utilice los datos de muestra para iteraciones rápidas, pero que utilice todos los datos cuando desee entrenar el modelo final. Al crear modelos tabulares, los conjuntos de datos de más de 5 GB se reducen automáticamente a 5 GB y, en el caso de los modelos de previsión de series temporales, los conjuntos de datos de más de 30 GB se reducen a 30 GB.

    Para obtener más información sobre la creación de un modelo, consulte. Creación de un modelo personalizado

  • Exporte los datos. Puede exportar sus datos para utilizarlos en los flujos de trabajo de aprendizaje automático. Cuando eliges exportar tus datos, tienes varias opciones:

    • Puede guardar sus datos en la aplicación Canvas como un conjunto de datos. Para obtener más información sobre los tipos de archivo compatibles con los conjuntos de datos de Canvas y los requisitos adicionales a la hora de importar datos a Canvas, consulteCreación de un conjunto de datos.

    • Puede guardar sus datos en Amazon S3. Según la disponibilidad de memoria de Canvas, los datos se procesan en la aplicación y, a continuación, se exportan a Amazon S3. Si el tamaño del conjunto de datos supera lo que Canvas puede procesar, de forma predeterminada, Canvas utiliza un trabajo EMR sin servidor para escalarlo a varias instancias de cómputo, procesar todo el conjunto de datos y exportarlo a Amazon S3. También puede configurar manualmente un trabajo de SageMaker procesamiento para tener un control más detallado sobre los recursos de cómputo utilizados para procesar sus datos.

  • Exporte un flujo de datos. Es posible que desee guardar el código del flujo de datos para poder modificar o ejecutar las transformaciones fuera de Canvas. Canvas le ofrece la opción de guardar las transformaciones del flujo de datos como código Python en un cuaderno de Jupyter, que luego puede exportar a Amazon S3 para usarlo en otros lugares de sus flujos de trabajo de aprendizaje automático.

Cuando exporta los datos de un flujo de datos y los guarda como un conjunto de datos de Canvas o en Amazon S3, Canvas crea un nuevo nodo de destino en el flujo de datos, que es un nodo final que muestra dónde se almacenan los datos procesados. Puede añadir nodos de destino adicionales a su flujo si desea realizar varias operaciones de exportación. Por ejemplo, puede exportar los datos desde distintos puntos del flujo de datos para aplicar solo algunas de las transformaciones, o puede exportar los datos transformados a diferentes ubicaciones de Amazon S3. Para obtener más información sobre cómo añadir o editar un nodo de destino, consulteAgregue un nodo de destino.

En las siguientes secciones se describe cómo realizar las acciones anteriores.

Exporte para crear un modelo

Con solo unos pocos clics desde su flujo de datos, puede exportar los datos transformados y empezar a crear un modelo de aprendizaje automático en Canvas. Canvas guarda sus datos como un conjunto de datos de Canvas y se le redirige a la página de configuración de construcción del modelo nuevo.

Para crear un modelo de Canvas con los datos transformados:

  1. Navegue hasta su flujo de datos.

  2. Selecciona el icono de puntos suspensivos situado junto al nodo que vas a exportar.

  3. En el menú contextual, selecciona Crear modelo.

  4. En el panel lateral Exportar para crear un modelo, introduzca un nombre de conjunto de datos para el nuevo conjunto de datos.

  5. Deje seleccionada la opción Procesar todo el conjunto de datos para procesar y exportar todo el conjunto de datos antes de continuar con la creación de un modelo. Desactive esta opción para entrenar el modelo con los datos de muestra interactivos con los que está trabajando en el flujo de datos.

  6. Introduzca un nombre de modelo para asignar un nombre al nuevo modelo.

  7. Seleccione un tipo de problema o el tipo de modelo que desee construir. Para obtener más información sobre los tipos de modelos compatibles en SageMaker Canvas, consulteCreación de un modelo personalizado.

  8. Seleccione la columna Objetivo o el valor que desee que prediga el modelo.

  9. Elija Exportar y crear modelo.

Debería abrirse la pestaña Crear para un nuevo modelo de Canvas y podrás terminar de configurar y entrenar tu modelo. Para obtener más información sobre cómo crear un modelo, consulteCreación de un modelo.

Exportar datos

Exporte los datos para aplicar las transformaciones del flujo de datos a todo el conjunto de datos importado. Puede exportar cualquier nodo del flujo de datos a las siguientes ubicaciones:

  • SageMaker Conjunto de datos Canvas

  • Amazon S3

Si desea entrenar modelos en Canvas, puede exportar su conjunto de datos completo y transformado como un conjunto de datos de Canvas. Si desea utilizar sus datos transformados en flujos de trabajo de aprendizaje automático externos a SageMaker Canvas, puede exportar su conjunto de datos a Amazon S3.

Exporte a un conjunto de datos de Canvas

Utilice el siguiente procedimiento para exportar un conjunto de datos de SageMaker Canvas desde un nodo de su flujo de datos.

Para exportar un nodo de su flujo como un conjunto de datos de SageMaker Canvas
  1. Navegue hasta su flujo de datos.

  2. Selecciona el icono de puntos suspensivos situado junto al nodo que vas a exportar.

  3. En el menú contextual, coloca el cursor sobre Exportar y, a continuación, selecciona Exportar datos al conjunto de datos de Canvas.

  4. En el panel lateral Exportar a un conjunto de datos de Canvas, introduce un nombre de conjunto de datos para el nuevo conjunto de datos.

  5. Deje seleccionada la opción Procesar todo el conjunto de datos si desea que SageMaker Canvas procese y guarde todo el conjunto de datos. Desactive esta opción para aplicar las transformaciones únicamente a los datos de muestra con los que está trabajando en su flujo de datos.

  6. Seleccione Exportar.

Ahora debería poder ir a la página de conjuntos de datos de la aplicación Canvas y ver el nuevo conjunto de datos.

Exportar a Amazon S3.

Al exportar sus datos a Amazon S3, puede escalarlos para transformar y procesar datos de cualquier tamaño. Canvas procesa automáticamente los datos de forma local si la memoria de la aplicación puede gestionar el tamaño del conjunto de datos. Si el tamaño de su conjunto de datos supera la capacidad de memoria local de 5 GB, Canvas inicia una tarea remota en su nombre para aprovisionar recursos informáticos adicionales y procesar los datos con mayor rapidez. De forma predeterminada, Canvas usa Amazon EMR Serverless para ejecutar estos trabajos remotos. Sin embargo, puede configurar Canvas manualmente para que utilice EMR Serverless o un trabajo de SageMaker procesamiento con sus propios ajustes.

nota

Al ejecutar un trabajo EMR sin servidor, de forma predeterminada, el trabajo hereda el IAM rol, los ajustes KMS clave y las etiquetas de su aplicación de Canvas.

A continuación se resumen las opciones para los trabajos remotos en Canvas:

  • EMRSin servidor: esta es la opción predeterminada que Canvas usa para los trabajos remotos. EMRServerless aprovisiona y escala automáticamente los recursos informáticos para procesar sus datos, de modo que no tenga que preocuparse por elegir los recursos informáticos adecuados para su carga de trabajo. Para obtener más información sobre EMR Serverless, consulte la Guía del usuario de EMRServerless.

  • SageMaker Procesamiento: los trabajos de SageMaker procesamiento ofrecen opciones más avanzadas y un control detallado de los recursos informáticos utilizados para procesar los datos. Por ejemplo, puede especificar el tipo y el recuento de las instancias informáticas, configurar el trabajo por su cuenta VPC y controlar el acceso a la red, automatizar los trabajos de procesamiento y mucho más. Para obtener más información sobre la automatización de los trabajos de procesamiento, consulteCree un cronograma para procesar automáticamente los nuevos datos. Para obtener más información general sobre los trabajos SageMaker de procesamiento, consulteUtilice trabajos de procesamiento para ejecutar cargas de trabajo de transformación de datos.

Se admiten los siguientes tipos de archivos al exportar a Amazon S3:

  • CSV

  • Parquet

Para empezar, revise los requisitos previos siguientes.

Requisitos previos para los trabajos EMR sin servidor

Para crear un trabajo remoto que utilice recursos EMR sin servidor, debe tener los permisos necesarios. Puedes conceder permisos a través de la configuración del SageMaker dominio de Amazon o del perfil de usuario, o bien puedes configurar manualmente los AWS IAMrol. Para obtener instrucciones sobre cómo conceder a los usuarios permisos para realizar un procesamiento de datos de gran tamaño, consulteConceda a los usuarios permisos para usar datos de gran tamaño durante todo el ciclo de vida del aprendizaje automático.

Si no desea configurar estas políticas, pero aun así necesita procesar grandes conjuntos de datos a través de Data Wrangler, también puede utilizar un SageMaker trabajo de procesamiento.

Utilice los siguientes procedimientos para exportar los datos a Amazon S3. Para configurar un trabajo remoto, siga los pasos avanzados opcionales.

Para exportar un nodo de su flujo a Amazon S3
  1. Navegue hasta su flujo de datos.

  2. Selecciona el icono de puntos suspensivos situado junto al nodo que vas a exportar.

  3. En el menú contextual, pase el ratón sobre Exportar y, a continuación, seleccione Exportar datos a Amazon S3.

  4. En el panel lateral Exportar a Amazon S3, puede cambiar el nombre del conjunto de datos del nuevo conjunto de datos.

  5. Para la ubicación S3, introduzca la ubicación de Amazon S3 a la que desea exportar el conjunto de datos. Puede introducir el S3URI, el alias o la ubicación ARN de S3 o el punto de acceso de S3. Para obtener más información sobre los puntos de acceso, consulte Administrar el acceso a los datos con los puntos de acceso de Amazon S3 en la Guía del usuario de Amazon S3.

  6. (Opcional) Para la configuración avanzada, especifique los valores de los siguientes campos:

    1. Tipo de archivo: el formato de archivo de los datos exportados.

    2. Delimitador: el delimitador que se utiliza para separar los valores del archivo.

    3. Compresión: método de compresión utilizado para reducir el tamaño del archivo.

    4. Número de particiones: el número de archivos de conjuntos de datos que Canvas escribe como salida del trabajo.

    5. Elegir columnas: puede elegir un subconjunto de columnas de los datos para incluirlas en las particiones.

  7. Deje seleccionada la opción Procesar todo el conjunto de datos si desea que Canvas aplique las transformaciones del flujo de datos a todo el conjunto de datos y exporte el resultado. Si deselecciona esta opción, Canvas solo aplica las transformaciones a la muestra de su conjunto de datos utilizada en el flujo de datos interactivo de Data Wrangler.

    nota

    Si solo exporta una muestra de sus datos, Canvas los procesa en la aplicación y no crea un trabajo remoto para usted.

  8. Deje seleccionada la opción de configuración automática del trabajo si desea que Canvas determine automáticamente si debe ejecutar el trabajo utilizando la memoria de la aplicación Canvas o un trabajo EMR sin servidor. Si deselecciona esta opción y configura su trabajo manualmente, puede optar por utilizar un trabajo EMR sin servidor o uno de procesamiento. SageMaker Para obtener instrucciones sobre cómo configurar un trabajo EMR sin servidor o de SageMaker procesamiento, consulte la sección posterior a este procedimiento antes de exportar los datos.

  9. Seleccione Exportar.

Los siguientes procedimientos muestran cómo configurar manualmente los ajustes del trabajo remoto para EMR Serverless o SageMaker Processing al exportar el conjunto de datos completo a Amazon S3.

EMR Serverless

Para configurar un trabajo EMR sin servidor al exportar a Amazon S3, haga lo siguiente:

  1. En el panel lateral Exportar a Amazon S3, desactive la opción de configuración automática de tareas.

  2. Selecciona EMRServerless.

  3. En Nombre del trabajo, introduzca un nombre para el trabajo EMR sin servidor. El nombre puede contener letras, números, guiones y guiones bajos.

  4. En IAMrol, introduzca el rol de ejecución del IAM usuario. Este rol debe tener los permisos necesarios para ejecutar aplicaciones EMR sin servidor. Para obtener más información, consulte Conceda a los usuarios permisos para usar datos de gran tamaño durante todo el ciclo de vida del aprendizaje automático.

  5. (Opcional) Para la KMSclave, especifique el ID de la clave o ARN de un AWS KMS key para cifrar los registros de trabajos. Si no ingresa una clave, Canvas usa una clave predeterminada para EMR Serverless.

  6. (Opcional) Para la configuración de monitorización, introduce el nombre del grupo de CloudWatch registros de Amazon Logs en el que quieras publicar tus registros.

  7. (Opcional) En el caso de las etiquetas, añada etiquetas de metadatos al trabajo EMR sin servidor compuesto por pares clave-valor. Estas etiquetas se pueden usar para clasificar y buscar trabajos.

  8. Elija Export para iniciar el trabajo.

SageMaker Processing

Para configurar un trabajo SageMaker de procesamiento al exportar a Amazon S3, haga lo siguiente:

  1. En el panel lateral Exportar a Amazon S3, desactive la opción de configuración automática de tareas.

  2. Selecciona SageMaker Procesamiento.

  3. En Nombre del trabajo, introduzca un nombre para el trabajo SageMaker de procesamiento.

  4. En Tipo de instancia, seleccione el tipo de instancia de procesamiento para ejecutar el trabajo de procesamiento.

  5. En Recuento de instancias, especifique el número de instancias informáticas que se van a lanzar.

  6. En IAMrol, introduzca el rol de IAM ejecución del usuario. Este rol debe tener los permisos necesarios SageMaker para crear y ejecutar trabajos de procesamiento en su nombre. Estos permisos se conceden si tiene la AmazonSageMakerFullAccesspolítica asociada a su IAM función.

  7. En Tamaño del volumen, introduzca el tamaño de almacenamiento en GB del volumen de almacenamiento de aprendizaje automático adjunto a cada instancia de procesamiento. Elija el tamaño en función del tamaño esperado de los datos de entrada y salida.

  8. (Opcional) En KMSClave de volumen, especifique una KMS clave para cifrar el volumen de almacenamiento. Si no especificas una clave, se utilizará la clave de EBS cifrado predeterminada de Amazon.

  9. (Opcional) Como KMSclave, especifique una KMS clave para cifrar las fuentes de datos de entrada y salida de Amazon S3 utilizadas por el trabajo de procesamiento.

  10. (Opcional) Para configurar la memoria de Spark, haga lo siguiente:

    1. Introduzca la memoria del controlador en MB para el nodo controlador de Spark que se encarga de la coordinación y programación de las tareas.

    2. Introduzca la memoria del ejecutor en MB para los nodos ejecutores de Spark que ejecutan tareas individuales del trabajo.

  11. (Opcional) Para configurar la red, haga lo siguiente:

    1. Para la configuración de subredes, introduzca IDs las VPC subredes en las que se van a lanzar las instancias de procesamiento. De forma predeterminada, el trabajo usa la configuración predeterminada. VPC

    2. Para configurar los grupos de seguridad, introduzca los grupos IDs de seguridad para controlar las reglas de conectividad entrante y saliente.

    3. Active la opción Habilitar el cifrado del tráfico entre contenedores para cifrar la comunicación de red entre los contenedores de procesamiento durante el trabajo.

  12. (Opcional) Para las programaciones de Associate, puedes elegir crear una EventBridge programación de Amazon para que el trabajo de procesamiento se ejecute en intervalos periódicos. Seleccione Crear nueva programación y rellene el cuadro de diálogo. Para obtener más información sobre cómo rellenar esta sección y ejecutar los trabajos de procesamiento según un cronograma, consulteCree un cronograma para procesar automáticamente los nuevos datos.

  13. (Opcional) Añada etiquetas como pares clave-valor para poder clasificar y buscar trabajos de procesamiento.

  14. Seleccione Exportar para iniciar el trabajo de procesamiento.

Tras exportar los datos, debería encontrar el conjunto de datos completamente procesado en la ubicación de Amazon S3 especificada.

Exporte un flujo de datos

La exportación de su flujo de datos traduce las operaciones que ha realizado en Data Wrangler y las exporta a un cuaderno de código Python de Jupyter que puede modificar y ejecutar. Esto puede resultar útil para integrar el código de tus transformaciones de datos en tus procesos de aprendizaje automático.

Puede elegir cualquier nodo de datos de su flujo de datos y exportarlo. Al exportar el nodo de datos, se exporta la transformación que representa el nodo y las transformaciones que la preceden.

Para exportar un flujo de datos como un cuaderno de Jupyter
  1. Navegue hasta su flujo de datos.

  2. Elija el icono de puntos suspensivos situado junto al nodo que desee exportar.

  3. En el menú contextual, coloca el cursor sobre Exportar y, a continuación, sobre Exportar mediante el bloc de notas de Jupyter.

  4. Seleccione una de las siguientes opciones:

    • SageMaker Canalizaciones

    • Amazon S3

    • SageMaker Canalización de inferencias

    • SageMaker Tienda de funciones

    • Código Python

  5. Se abre el cuadro de diálogo Exportar flujo de datos como bloc de notas. Seleccione una de estas opciones:

    • Descargue una copia local

    • Exportar a una ubicación S3

  6. Si seleccionó Exportar a la ubicación S3, introduzca la ubicación de Amazon S3 a la que desea exportar el bloc de notas.

  7. Seleccione Exportar.

Su bloc de notas Jupyter debe descargarse en su máquina local o puede encontrarlo guardado en la ubicación de Amazon S3 que especificó.

Administre los nodos de destino

Un nodo de destino en SageMaker Canvas especifica dónde almacenar los datos procesados y transformados. Cuando decide exportar los datos transformados a Amazon S3, Canvas utiliza la ubicación del nodo de destino especificada y aplica todas las transformaciones que haya configurado en el flujo de datos. Para obtener más información sobre la exportación de trabajos a Amazon S3, consulte la sección anteriorExportar a Amazon S3..

De forma predeterminada, si decide exportar los datos a Amazon S3, se añade un nodo de destino al flujo de datos. Sin embargo, puede añadir varios nodos de destino a su flujo, lo que le permitirá exportar simultáneamente diferentes conjuntos de transformaciones o variaciones de sus datos a diferentes ubicaciones de Amazon S3. Por ejemplo, puede crear un nodo de destino que exporte los datos después de aplicar todas las transformaciones y otro nodo de destino que exporte los datos solo después de determinadas transformaciones iniciales, como una operación de unión. Esta flexibilidad le permite exportar y almacenar diferentes versiones o subconjuntos de los datos transformados en ubicaciones S3 independientes para distintos casos de uso.

En las siguientes secciones, se describe cómo añadir y editar nodos de destino en el flujo de datos.

Agregue un nodo de destino

Utilice el siguiente procedimiento para añadir un nodo de destino al flujo de datos.

Para añadir un nodo de destino
  1. Navegue hasta su flujo de datos.

  2. Elija el icono de puntos suspensivos situado junto al nodo en el que desee colocar el nodo de destino.

  3. En el menú contextual, coloca el cursor sobre Exportar y, a continuación, selecciona Añadir destino.

  4. En el panel lateral de destino de la exportación, introduce un nombre de conjunto de datos para asignar un nombre a la salida.

  5. Para la ubicación de Amazon S3, introduzca la ubicación de Amazon S3 a la que desea exportar la salida. Puede introducir el S3URI, el alias o la ubicación ARN de S3 o el punto de acceso de S3. Para obtener más información sobre los puntos de acceso, consulte Administrar el acceso a los datos con los puntos de acceso de Amazon S3 en la Guía del usuario de Amazon S3.

  6. En la configuración de exportación, especifique los siguientes campos:

    1. Tipo de archivo: el formato de archivo de los datos exportados.

    2. Delimitador: el delimitador que se utiliza para separar los valores del archivo.

    3. Compresión: método de compresión utilizado para reducir el tamaño del archivo.

  7. Para particionar, especifique los siguientes campos:

    1. Número de particiones: el número de archivos de conjuntos de datos que SageMaker Canvas escribe como salida del trabajo.

    2. Elegir columnas: puede elegir un subconjunto de columnas de los datos para incluirlas en las particiones.

  8. Elija Agregar si simplemente desea agregar un nodo de destino al flujo de datos, o elija Agregar y, a continuación, elija Exportar si desea agregar el nodo e iniciar un trabajo de exportación.

Ahora debería ver un nuevo nodo de destino en su flujo.

Edita un nodo de destino

También puede editar la configuración de un nodo de destino existente y, a continuación, optar por volver a ejecutar el trabajo para sobrescribir los datos en la ubicación de Amazon S3 especificada.

Utilice el siguiente procedimiento para editar un nodo de destino de su flujo de datos e iniciar un trabajo de exportación.

Para editar un nodo de destino
  1. Navegue hasta su flujo de datos.

  2. Elija el icono de puntos suspensivos situado junto al nodo de destino que desee editar.

  3. En el menú contextual, selecciona Editar.

  4. Se abre el panel lateral Editar destino. Desde este panel, puede editar detalles como el nombre del conjunto de datos, la ubicación de Amazon S3 y la configuración de exportación y partición.

  5. (Opcional) En Nodos adicionales para exportar, puede seleccionar más nodos de destino para procesarlos cuando ejecute el trabajo de exportación.

  6. Deje seleccionada la opción Procesar todo el conjunto de datos si quiere que Canvas aplique las transformaciones del flujo de datos a todo el conjunto de datos y exporte el resultado. Si deselecciona esta opción, Canvas solo aplica las transformaciones a la muestra de su conjunto de datos utilizada en el flujo de datos interactivo de Data Wrangler.

  7. Deje seleccionada la opción de configuración automática del trabajo si quiere que Canvas determine automáticamente si debe ejecutar el trabajo utilizando la memoria de la aplicación Canvas o un EMR trabajo sin servidor. Si deselecciona esta opción y configura su trabajo manualmente, puede optar por utilizar un trabajo EMR sin servidor o uno de procesamiento. SageMaker Para obtener instrucciones sobre cómo configurar un trabajo EMR sin servidor o de SageMaker procesamiento, consulte la sección anterior. Exportar a Amazon S3.

  8. Cuando haya terminado de realizar cambios, elija Actualizar.

Al guardar los cambios en la configuración del nodo de destino, no se vuelve a ejecutar automáticamente un trabajo ni se sobrescriben los datos que ya se han procesado y exportado. Vuelva a exportar los datos para ejecutar un trabajo con la nueva configuración. Si decide volver a exportar los datos con un trabajo, Canvas utiliza la configuración actualizada del nodo de destino para transformar y enviar los datos a la ubicación especificada, sobrescribiendo los datos existentes.

Cree un cronograma para procesar automáticamente los nuevos datos

nota

La siguiente sección solo se aplica a los trabajos SageMaker de procesamiento. Si usó la configuración predeterminada de Canvas o EMR Serverless para crear un trabajo remoto para aplicar transformaciones a todo su conjunto de datos, esta sección no se aplica.

Si procesa datos periódicamente, puede crear una programación para ejecutar el trabajo de procesamiento de forma automática. Por ejemplo, puede crear una programación que ejecute un trabajo de procesamiento automáticamente cuando obtenga datos nuevos. Para obtener más información sobre los trabajos de procesamiento, consulteExportar a Amazon S3..

Al crear un trabajo, debe especificar un IAM rol que tenga permisos para crear el trabajo. Puede usar la AmazonSageMakerCanvasDataPrepFullAccesspolítica para añadir permisos.

Agregue la siguiente política de confianza al rol EventBridge para poder asumirlo.

{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
importante

Al crear una programación, Data Wrangler crea una eventRule entrada. EventBridge Se le cobrará tanto por las reglas de eventos que cree como por las instancias que utilice para ejecutar el trabajo de procesamiento.

Para obtener información sobre EventBridge los precios, consulta los EventBridge precios de Amazon. Para obtener información sobre cómo procesar los precios de los trabajos, consulta Amazon SageMaker Pricing.

Utilice uno de los métodos siguientes para definir una programación:

  • CRONexpresiones

    nota

    Data Wrangler no admite las siguientes expresiones:

    • LW#

    • Abreviaturas para días

    • Abreviaturas para días

  • RATEexpresiones

  • Recurrente: establece un intervalo de una hora o un día para ejecutar el trabajo.

  • Hora específica: establece días y horas concretos para ejecutar el trabajo.

En las siguientes secciones se describen los procedimientos para programar trabajos al rellenar la configuración del trabajo de SageMaker procesamiento al exportar los datos a Amazon S3. Todas las instrucciones siguientes comienzan en la sección Asociar cronogramas de la configuración de los trabajos de SageMaker procesamiento.

CRON

Utilice el siguiente procedimiento para crear una programación con una CRON expresión.

  1. En el panel lateral Exportar a Amazon S3, asegúrese de haber desactivado la opción Configuración automática de tareas y de haber seleccionado la opción SageMaker Procesamiento.

  2. En la configuración del trabajo de SageMaker procesamiento, abre la sección Asociar cronogramas y selecciona Crear un nuevo cronograma.

  3. Se abre el cuadro de diálogo Crear una nueva programación. En Nombre de la programación, especifique el nombre de la programación.

  4. En Frecuencia de ejecución, elija CRON.

  5. Introduzca valores de CRON expresión válidos para cada uno de los campos Minutos, Horas, Días del mes, Mes y Día de la semana.

  6. Seleccione Crear.

  7. De forma opcional, elija Agregar otra programación para ejecutar el trabajo según una programación adicional.

    nota

    Puede asociar un máximo de dos programaciones. Las programaciones son independientes y no se afectan entre sí a menos que los horarios se superpongan.

  8. Seleccione una de las siguientes opciones:

    • Programe y ejecute ahora: el trabajo se ejecuta inmediatamente y, posteriormente, se ejecuta según lo programado.

    • Solo programar: el trabajo solo se ejecuta según los horarios que especifique.

  9. Elija Exportar después de haber rellenado el resto de la configuración del trabajo de exportación.

RATE

Utilice el siguiente procedimiento para crear una programación con una RATE expresión.

  1. En el panel lateral Exportar a Amazon S3, asegúrese de haber desactivado la opción Configuración automática de tareas y de haber seleccionado la opción SageMaker Procesamiento.

  2. En la configuración del trabajo de SageMaker procesamiento, abre la sección Asociar cronogramas y selecciona Crear un nuevo cronograma.

  3. Se abre el cuadro de diálogo Crear una nueva programación. En Nombre de la programación, especifique el nombre de la programación.

  4. En Frecuencia de ejecución, elija Velocidad.

  5. En Valor, especifique un valor entero.

  6. En Unidad, seleccione una de las opciones siguientes:

    • Minutos

    • Horas

    • Días

  7. Seleccione Crear.

  8. De forma opcional, elija Agregar otra programación para ejecutar el trabajo según una programación adicional.

    nota

    Puede asociar un máximo de dos programaciones. Las programaciones son independientes y no se afectan entre sí a menos que los horarios se superpongan.

  9. Seleccione una de las siguientes opciones:

    • Programe y ejecute ahora: el trabajo se ejecuta inmediatamente y, posteriormente, se ejecuta según lo programado.

    • Solo programar: el trabajo solo se ejecuta según los horarios que especifique.

  10. Elija Exportar después de haber rellenado el resto de la configuración del trabajo de exportación.

Recurring

Utilice el siguiente procedimiento para crear un programa que ejecute un trabajo de forma recurrente.

  1. En el panel lateral Exportar a Amazon S3, asegúrese de haber desactivado la opción Configuración automática de tareas y de haber seleccionado la opción SageMaker Procesamiento.

  2. En la configuración del trabajo de SageMaker procesamiento, abre la sección Asociar cronogramas y selecciona Crear un nuevo cronograma.

  3. Se abre el cuadro de diálogo Crear una nueva programación. En Nombre de la programación, especifique el nombre de la programación.

  4. En Frecuencia de ejecución, elija Recurrente.

  5. En Cada x horas, especifique la frecuencia horaria con la que se ejecuta el trabajo durante el día. Los valores válidos son enteros en el rango inclusivo de 1 a23.

  6. Para En días, seleccione una de las siguientes opciones:

    • Todos los días

    • Fines de semana

    • Días laborales

    • Seleccionar días

    1. De forma opcional, si eligió Seleccionar días, elija los días de la semana en los que se ejecutará el trabajo.

    nota

    El horario se restablece cada día. Si programa un trabajo para que se ejecute cada cinco horas, se ejecutará en los siguientes momentos del día:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  7. Seleccione Crear.

  8. De forma opcional, elija Agregar otra programación para ejecutar el trabajo según una programación adicional.

    nota

    Puede asociar un máximo de dos programaciones. Las programaciones son independientes y no se afectan entre sí a menos que los horarios se superpongan.

  9. Seleccione una de las siguientes opciones:

    • Programe y ejecute ahora: el trabajo se ejecuta inmediatamente y, posteriormente, se ejecuta según lo programado.

    • Solo programar: el trabajo solo se ejecuta según los horarios que especifique.

  10. Elija Exportar después de haber rellenado el resto de la configuración del trabajo de exportación.

Specific time

Utilice el siguiente procedimiento para crear una programación que ejecute un trabajo en momentos concretos.

  1. En el panel lateral Exportar a Amazon S3, asegúrese de haber desactivado la opción Configuración automática de tareas y de haber seleccionado la opción SageMaker Procesamiento.

  2. En la configuración del trabajo de SageMaker procesamiento, abre la sección Asociar cronogramas y selecciona Crear un nuevo cronograma.

  3. Se abre el cuadro de diálogo Crear una nueva programación. En Nombre de la programación, especifique el nombre de la programación.

  4. En Frecuencia de ejecución, seleccione Hora de inicio.

  5. En Hora de inicio, introduzca una hora en UTC formato (por ejemplo,09:00). La hora de inicio se establece de forma predeterminada en la zona horaria en la que se encuentra.

  6. Para En días, seleccione una de las siguientes opciones:

    • Todos los días

    • Fines de semana

    • Días laborales

    • Seleccionar días

    1. De forma opcional, si eligió Seleccionar días, elija los días de la semana en los que se ejecutará el trabajo.

  7. Seleccione Crear.

  8. De forma opcional, elija Agregar otra programación para ejecutar el trabajo según una programación adicional.

    nota

    Puede asociar un máximo de dos programaciones. Las programaciones son independientes y no se afectan entre sí a menos que los horarios se superpongan.

  9. Seleccione una de las siguientes opciones:

    • Programe y ejecute ahora: el trabajo se ejecuta inmediatamente y, posteriormente, se ejecuta según lo programado.

    • Solo programar: el trabajo solo se ejecuta según los horarios que especifique.

  10. Elija Exportar después de haber rellenado el resto de la configuración del trabajo de exportación.

Puede utilizar la SageMaker AWS Management Console para ver los trabajos que están programados para ejecutarse. Sus trabajos de procesamiento se ejecutan dentro de Pipelines. Cada trabajo de procesamiento tiene su propia canalización. Se ejecuta como un paso de procesamiento dentro de la canalización. Puede ver las programaciones que ha creado dentro de una canalización. Para obtener información acerca de cómo visualizar una canalización, consulte Ver una canalización.

Utilice el siguiente procedimiento para ver los trabajos que ha programado.

Para ver los trabajos que ha programado, haga lo siguiente.

  1. Abre Amazon SageMaker Studio Classic.

  2. Abra Pipelines

  3. Vea las canalizaciones de los trabajos que ha creado.

    La canalización que ejecuta el trabajo usa el nombre del trabajo como prefijo. Por ejemplo, si ha creado un trabajo denominado housing-data-feature-enginnering, el nombre de la canalización es canvas-data-prep-housing-data-feature-engineering.

  4. Elija la canalización que contiene su trabajo.

  5. Vea el estado de las canalizaciones. Las canalizaciones con un Estado Correcto han ejecutado el trabajo de procesamiento correctamente.

Para detener la ejecución del trabajo de procesamiento, haga lo siguiente:

Para detener la ejecución de un trabajo de procesamiento, elimine la regla de eventos que especifica la programación. Al eliminar una regla de eventos, se detiene la ejecución de todos los trabajos asociados a la programación. Para obtener información sobre cómo eliminar una regla, consulta Cómo deshabilitar o eliminar una EventBridge regla de Amazon.

También puede detener y eliminar las canalizaciones asociadas a las programaciones. Para obtener información sobre cómo detener una canalización, consulta StopPipelineExecution. Para obtener información sobre la eliminación de una canalización, consulte DeletePipeline.