Exportar datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Exportar datos

Exporte los datos para aplicar las transformaciones de su flujo de datos a todo el conjunto de datos importado. Puede exportar cualquier nodo de su flujo de datos a las siguientes ubicaciones:

  • SageMaker Conjunto de datos Canvas

  • Amazon S3

Si desea entrenar modelos en Canvas, puede exportar su conjunto de datos completo y transformado como un conjunto de datos de Canvas. Si desea utilizar sus datos transformados en flujos de trabajo de aprendizaje automático externos a SageMaker Canvas, puede exportar su conjunto de datos a Amazon S3.

Exporte a un conjunto de datos de Canvas

Utilice el siguiente procedimiento para exportar un conjunto de datos de SageMaker Canvas desde un nodo de su flujo de datos.

Para exportar un nodo de su flujo como un conjunto de datos de SageMaker Canvas
  1. Navegue hasta su flujo de datos.

  2. Selecciona el icono de puntos suspensivos situado junto al nodo que vas a exportar.

  3. En el menú contextual, coloca el cursor sobre Exportar y, a continuación, selecciona Exportar datos al conjunto de datos de Canvas.

  4. En el panel lateral Exportar a un conjunto de datos de Canvas, introduce un nombre de conjunto de datos para el nuevo conjunto de datos.

  5. Deje seleccionada la opción Procesar todo el conjunto de datos si desea que SageMaker Canvas procese y guarde todo el conjunto de datos. Desactive esta opción para aplicar las transformaciones únicamente a los datos de muestra con los que está trabajando en su flujo de datos.

  6. Seleccione Exportar.

Ahora debería poder ir a la página de conjuntos de datos de la aplicación Canvas y ver el nuevo conjunto de datos.

Exportar a Amazon S3.

Al exportar sus datos a Amazon S3, puede escalarlos para transformar y procesar datos de cualquier tamaño. Canvas procesa automáticamente los datos de forma local si la memoria de la aplicación puede gestionar el tamaño del conjunto de datos. Si el tamaño de su conjunto de datos supera la capacidad de memoria local de 5 GB, Canvas inicia una tarea remota en su nombre para aprovisionar recursos informáticos adicionales y procesar los datos con mayor rapidez. De forma predeterminada, Canvas usa Amazon EMR Serverless para ejecutar estos trabajos remotos. Sin embargo, puede configurar Canvas manualmente para que utilice EMR Serverless o un trabajo de SageMaker procesamiento con sus propios ajustes.

nota

Al ejecutar un trabajo EMR sin servidor, de forma predeterminada, el trabajo hereda el IAM rol, los ajustes KMS clave y las etiquetas de su aplicación de Canvas.

A continuación se resumen las opciones para los trabajos remotos en Canvas:

  • EMRSin servidor: esta es la opción predeterminada que Canvas usa para los trabajos remotos. EMRServerless aprovisiona y escala automáticamente los recursos informáticos para procesar sus datos, de modo que no tenga que preocuparse por elegir los recursos informáticos adecuados para su carga de trabajo. Para obtener más información sobre EMR Serverless, consulte la Guía del usuario de EMRServerless.

  • SageMaker Procesamiento: los trabajos de SageMaker procesamiento ofrecen opciones más avanzadas y un control detallado de los recursos informáticos utilizados para procesar los datos. Por ejemplo, puede especificar el tipo y el recuento de las instancias informáticas, configurar el trabajo por su cuenta VPC y controlar el acceso a la red, automatizar los trabajos de procesamiento y mucho más. Para obtener más información sobre la automatización de los trabajos de procesamiento, consulteCree un cronograma para procesar automáticamente los nuevos datos. Para obtener más información general sobre los trabajos SageMaker de procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .

Se admiten los siguientes tipos de archivos al exportar a Amazon S3:

  • CSV

  • Parquet

Para empezar, revise los requisitos previos siguientes.

Requisitos previos para los trabajos EMR sin servidor

Para crear un trabajo remoto que utilice recursos EMR sin servidor, debe tener los permisos necesarios. Puedes conceder permisos a través de la configuración del SageMaker dominio de Amazon o del perfil de usuario, o puedes configurar manualmente el AWS IAM rol de tu usuario. Para obtener instrucciones sobre cómo conceder a los usuarios permisos para realizar un procesamiento de datos de gran tamaño, consulteConceda a los usuarios permisos para usar datos de gran tamaño durante todo el ciclo de vida del aprendizaje automático.

Si no desea configurar estas políticas, pero aun así necesita procesar grandes conjuntos de datos a través de Data Wrangler, también puede utilizar un SageMaker trabajo de procesamiento.

Utilice los siguientes procedimientos para exportar los datos a Amazon S3. Para configurar un trabajo remoto, siga los pasos avanzados opcionales.

Para exportar un nodo de su flujo a Amazon S3
  1. Navegue hasta su flujo de datos.

  2. Selecciona el icono de puntos suspensivos situado junto al nodo que vas a exportar.

  3. En el menú contextual, pase el ratón sobre Exportar y, a continuación, seleccione Exportar datos a Amazon S3.

  4. En el panel lateral Exportar a Amazon S3, puede cambiar el nombre del conjunto de datos del nuevo conjunto de datos.

  5. Para la ubicación S3, introduzca la ubicación de Amazon S3 a la que desea exportar el conjunto de datos. Puede introducir el S3URI, el alias o la ubicación ARN de S3 o el punto de acceso de S3. Para obtener más información sobre los puntos de acceso, consulte Administrar el acceso a los datos con los puntos de acceso de Amazon S3 en la Guía del usuario de Amazon S3.

  6. (Opcional) Para la configuración avanzada, especifique los valores de los siguientes campos:

    1. Tipo de archivo: el formato de archivo de los datos exportados.

    2. Delimitador: el delimitador que se utiliza para separar los valores del archivo.

    3. Compresión: método de compresión utilizado para reducir el tamaño del archivo.

    4. Número de particiones: el número de archivos de conjuntos de datos que Canvas escribe como salida del trabajo.

    5. Elegir columnas: puede elegir un subconjunto de columnas de los datos para incluirlas en las particiones.

  7. Deje seleccionada la opción Procesar todo el conjunto de datos si desea que Canvas aplique las transformaciones del flujo de datos a todo el conjunto de datos y exporte el resultado. Si deselecciona esta opción, Canvas solo aplica las transformaciones a la muestra de su conjunto de datos utilizada en el flujo de datos interactivo de Data Wrangler.

    nota

    Si solo exporta una muestra de sus datos, Canvas los procesa en la aplicación y no crea un trabajo remoto para usted.

  8. Deje seleccionada la opción de configuración automática del trabajo si desea que Canvas determine automáticamente si debe ejecutar el trabajo utilizando la memoria de la aplicación Canvas o un trabajo EMR sin servidor. Si deselecciona esta opción y configura su trabajo manualmente, puede optar por utilizar un trabajo EMR sin servidor o uno de procesamiento. SageMaker Para obtener instrucciones sobre cómo configurar un trabajo EMR sin servidor o de SageMaker procesamiento, consulte la sección posterior a este procedimiento antes de exportar los datos.

  9. Seleccione Exportar.

Los siguientes procedimientos muestran cómo configurar manualmente los ajustes del trabajo remoto para EMR Serverless o SageMaker Processing al exportar el conjunto de datos completo a Amazon S3.

EMR Serverless

Para configurar un trabajo EMR sin servidor al exportar a Amazon S3, haga lo siguiente:

  1. En el panel lateral Exportar a Amazon S3, desactive la opción de configuración automática de tareas.

  2. Selecciona EMRServerless.

  3. En Nombre del trabajo, introduzca un nombre para el trabajo EMR sin servidor. El nombre puede contener letras, números, guiones y guiones bajos.

  4. En IAMrol, introduzca el rol de ejecución del IAM usuario. Este rol debe tener los permisos necesarios para ejecutar aplicaciones EMR sin servidor. Para obtener más información, consulte Conceda a los usuarios permisos para usar datos de gran tamaño durante todo el ciclo de vida del aprendizaje automático.

  5. (Opcional) En el caso de la KMSclave, especifique el ID de la clave o el ARN de una clave AWS KMS key para cifrar los registros de trabajos. Si no ingresa una clave, Canvas usa una clave predeterminada para EMR Serverless.

  6. (Opcional) Para la configuración de monitorización, introduce el nombre del grupo de CloudWatch registros de Amazon Logs en el que quieras publicar tus registros.

  7. (Opcional) En el caso de las etiquetas, añada etiquetas de metadatos al trabajo EMR sin servidor compuesto por pares clave-valor. Estas etiquetas se pueden usar para clasificar y buscar trabajos.

  8. Elija Export para iniciar el trabajo.

SageMaker Processing

Para configurar un trabajo SageMaker de procesamiento al exportar a Amazon S3, haga lo siguiente:

  1. En el panel lateral Exportar a Amazon S3, desactive la opción de configuración automática de tareas.

  2. Selecciona SageMaker Procesamiento.

  3. En Nombre del trabajo, introduzca un nombre para el trabajo SageMaker de procesamiento.

  4. En Tipo de instancia, seleccione el tipo de instancia de procesamiento para ejecutar el trabajo de procesamiento.

  5. En Recuento de instancias, especifique el número de instancias informáticas que se van a lanzar.

  6. En IAMrol, introduzca el rol de IAM ejecución del usuario. Este rol debe tener los permisos necesarios SageMaker para crear y ejecutar trabajos de procesamiento en su nombre. Estos permisos se conceden si tiene la AmazonSageMakerFullAccesspolítica asociada a su IAM función.

  7. En Tamaño del volumen, introduzca el tamaño de almacenamiento en GB del volumen de almacenamiento de aprendizaje automático adjunto a cada instancia de procesamiento. Elija el tamaño en función del tamaño esperado de los datos de entrada y salida.

  8. (Opcional) En KMSClave de volumen, especifique una KMS clave para cifrar el volumen de almacenamiento. Si no especificas una clave, se utilizará la clave de EBS cifrado predeterminada de Amazon.

  9. (Opcional) Como KMSclave, especifique una KMS clave para cifrar las fuentes de datos de entrada y salida de Amazon S3 utilizadas por el trabajo de procesamiento.

  10. (Opcional) Para configurar la memoria de Spark, haga lo siguiente:

    1. Introduzca la memoria del controlador en MB para el nodo controlador de Spark que se encarga de la coordinación y programación de las tareas.

    2. Introduzca la memoria del ejecutor en MB para los nodos ejecutores de Spark que ejecutan tareas individuales del trabajo.

  11. (Opcional) Para configurar la red, haga lo siguiente:

    1. Para la configuración de subredes, introduzca IDs las VPC subredes en las que se van a lanzar las instancias de procesamiento. De forma predeterminada, el trabajo usa la configuración predeterminada. VPC

    2. Para configurar los grupos de seguridad, introduzca los grupos IDs de seguridad para controlar las reglas de conectividad entrante y saliente.

    3. Active la opción Habilitar el cifrado del tráfico entre contenedores para cifrar la comunicación de red entre los contenedores de procesamiento durante el trabajo.

  12. (Opcional) Para las programaciones de Associate, puedes elegir crear una EventBridge programación de Amazon para que el trabajo de procesamiento se ejecute en intervalos periódicos. Seleccione Crear nueva programación y rellene el cuadro de diálogo. Para obtener más información sobre cómo rellenar esta sección y ejecutar los trabajos de procesamiento según un cronograma, consulteCree un cronograma para procesar automáticamente los nuevos datos.

  13. (Opcional) Añada etiquetas como pares clave-valor para poder clasificar y buscar trabajos de procesamiento.

  14. Seleccione Exportar para iniciar el trabajo de procesamiento.

Tras exportar los datos, debería encontrar el conjunto de datos completamente procesado en la ubicación de Amazon S3 especificada.