Exportar datos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Exportar datos

Exporte los datos para aplicar las transformaciones del flujo de datos a todo el conjunto de datos importado. Puede exportar cualquier nodo del flujo de datos a las siguientes ubicaciones:

  • SageMaker Conjunto de datos Canvas

  • Amazon S3

Si desea entrenar modelos en Canvas, puede exportar el conjunto de datos completo y transformado como conjunto de datos de Canvas. Si desea utilizar sus datos transformados en flujos de trabajo de aprendizaje automático externos a SageMaker Canvas, puede exportar su conjunto de datos a Amazon S3.

Exportación a un conjunto de datos de Canvas

Utilice el siguiente procedimiento para exportar un conjunto de datos de SageMaker Canvas desde un nodo de su flujo de datos.

Para exportar un nodo de su flujo como un conjunto de datos de SageMaker Canvas
  1. Vaya al flujo de datos.

  2. Elija el icono de puntos suspensivos junto al nodo que está exportando.

  3. En el menú contextual, coloque el cursor sobre Exportar y, a continuación, seleccione Exportar datos al conjunto de datos de Canvas.

  4. En el panel lateral Exportar a conjunto de datos de Canvas, introduzca un Nombre del conjunto de datos para el nuevo conjunto de datos.

  5. Deje seleccionada la opción Procesar todo el conjunto de datos si desea que SageMaker Canvas procese y guarde todo el conjunto de datos. Desactive esta opción para aplicar las transformaciones solo a los datos de muestra con los que está trabajando en el flujo de datos.

  6. Seleccione Exportar.

Ahora debería poder ir a la página de Conjuntos de datos de la aplicación de Canvas y ver el nuevo conjunto de datos.

Exportar a Amazon S3.

Al exportar datos a Amazon S3, puede escalarlos para transformar y procesar datos de cualquier tamaño. Canvas procesa automáticamente los datos de forma local si la memoria de la aplicación puede gestionar el tamaño del conjunto de datos. Si el tamaño del conjunto de datos supera la capacidad de memoria local de 5 GB, Canvas inicia una tarea remota en su nombre para aprovisionar recursos de computación adicionales y procesar los datos con mayor rapidez. De forma predeterminada, Canvas usa Amazon EMR sin servidor para ejecutar estos trabajos remotos. Sin embargo, puede configurar Canvas manualmente para que utilice EMR Serverless o un trabajo de SageMaker procesamiento con sus propios ajustes.

nota

Al ejecutar un trabajo sin servidor de EMR, de forma predeterminada, el trabajo hereda el rol de IAM, la configuración clave de KMS y las etiquetas de la aplicación de Canvas.

A continuación, se resumen las opciones de los trabajos remotos en Canvas:

  • EMR sin servidor: es la opción predeterminada que usa Canvas para trabajos remotos. EMR sin servidor aprovisiona y escala automáticamente los recursos de computación para procesar los datos, de modo que no tenga que preocuparse por elegir los recursos de computación adecuados para la carga de trabajo. Para obtener más información sobre EMR sin servidor, consulte la Guía del usuario de EMR sin servidor.

  • SageMaker Procesamiento: los trabajos de SageMaker procesamiento ofrecen opciones más avanzadas y un control detallado de los recursos informáticos utilizados para procesar los datos. Por ejemplo, puede especificar el tipo y el recuento de las instancias de computación, configurar el trabajo en su propia VPC y controlar el acceso a la red, automatizar los trabajos de procesamiento, etc. Para obtener más información sobre la automatización de trabajos de procesamiento, consulte Creación de una programación para procesar automáticamente los datos nuevos. Para obtener más información general sobre los trabajos de SageMaker procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .

Se admiten los siguientes tipos de archivos al exportar a Amazon S3:

  • CSV

  • Parquet

Para empezar, revise los requisitos previos siguientes.

Requisitos previos para trabajos de EMR sin servidor

Para crear un trabajo remoto que utilice recursos de EMR sin servidor debe tener los permisos necesarios. Puede conceder permisos a través del dominio de Amazon SageMaker AI o de la configuración del perfil de usuario, o bien puede configurar manualmente el rol de AWS IAM del usuario. Para obtener instrucciones sobre cómo conceder a los usuarios permisos para realizar procesamiento de datos de gran tamaño, consulte Concesión de permisos a los usuarios para usar datos de gran tamaño durante todo el ciclo de vida de ML.

Si no quieres configurar estas políticas, pero aun así necesitas procesar grandes conjuntos de datos a través de Data Wrangler, también puedes usar un trabajo de procesamiento. SageMaker

Siga este procedimiento para exportar los datos a Amazon S3. Para configurar un trabajo remoto, siga los pasos avanzados opcionales.

Exportación de un nodo del flujo a Amazon S3
  1. Vaya al flujo de datos.

  2. Elija el icono de puntos suspensivos junto al nodo que está exportando.

  3. En el menú contextual, coloque el cursor sobre Exportar y, a continuación, seleccione Exportar datos a Amazon S3.

  4. En el panel lateral Exportar a Amazon S3, puede cambiar el Nombre del conjunto de datos del nuevo conjunto de datos.

  5. En Ubicación de S3, introduzca la ubicación de Amazon S3 a la que desea exportar el conjunto de datos. Puede introducir el URI, el alias o el ARN de S3 de la ubicación de S3 o el punto de acceso de S3. Para obtener más información sobre los puntos de acceso, consulte Administración del acceso a datos con puntos de acceso de Amazon S3 en la Guía del usuario de Amazon S3.

  6. (Opcional) En Configuración avanzada, especifique valores para los campos siguientes:

    1. Tipo de archivo: formato de archivo de los datos exportados.

    2. Delimitador: delimitador utilizado para separar los valores del archivo.

    3. Compresión: método de compresión utilizado para reducir el tamaño del archivo.

    4. Número de particiones: número de archivos de conjunto de datos que Canvas escribe como salida del trabajo.

    5. Elegir columnas: puede elegir un subconjunto de columnas de los datos para incluirlas en las particiones.

  7. Deje seleccionada la opción Procesar todo el conjunto de datos si desea que Canvas aplique las transformaciones del flujo de datos a todo el conjunto de datos y exporte el resultado. Si anula la selección de esta opción, Canvas solo aplica las transformaciones a la muestra del conjunto de datos utilizada en el flujo de datos interactivo de Data Wrangler.

    nota

    Si solo exporta una muestra de los datos, Canvas los procesa en la aplicación y no crea un trabajo remoto.

  8. Deje seleccionada la opción Configuración automática de trabajos si desea que Canvas determine automáticamente si se debe ejecutar el trabajo con la memoria de la aplicación de Canvas o con un trabajo de EMR sin servidor. Si deselecciona esta opción y configura el trabajo manualmente, puede optar por utilizar un trabajo EMR Serverless o SageMaker un trabajo de procesamiento. Para obtener instrucciones sobre cómo configurar un EMR sin servidor o un trabajo de SageMaker procesamiento, consulte la sección posterior a este procedimiento antes de exportar los datos.

  9. Seleccione Exportar.

Los siguientes procedimientos muestran cómo configurar manualmente los ajustes del trabajo remoto para EMR Serverless o SageMaker Processing al exportar el conjunto de datos completo a Amazon S3.

EMR Serverless

Para configurar un trabajo de EMR sin servidor mientras exporta datos a Amazon S3, haga lo siguiente:

  1. En el panel lateral Exportar a Amazon S3, desactive la opción Configuración automática de trabajos.

  2. Seleccione EMR sin servidor.

  3. En Nombre del trabajo, escriba un nombre para el trabajo de EMR sin servidor. El nombre puede contener letras, números, guiones y guiones bajos.

  4. En Rol de IAM, introduzca el rol de ejecución de IAM del usuario. Este rol debe tener los permisos necesarios para ejecutar aplicaciones de EMR sin servidor. Para obtener más información, consulte Concesión de permisos a los usuarios para usar datos de gran tamaño durante todo el ciclo de vida de ML.

  5. (Opcional) Para la clave KMS, especifique el ID de clave o el ARN de una AWS KMS key para cifrar los registros de trabajos. Si no introduce una clave, Canvas usa una clave predeterminada para EMR sin servidor.

  6. (Opcional) Para la configuración de monitorización, introduce el nombre del grupo de CloudWatch registros de Amazon Logs en el que quieras publicar tus registros.

  7. (Opcional) En Etiquetas, agregue etiquetas de metadatos al trabajo de EMR sin servidor que consten de pares clave-valor. Estas etiquetas se pueden usar para clasificar y buscar trabajos.

  8. Elija Export para iniciar el trabajo.

SageMaker Processing

Para configurar un trabajo SageMaker de procesamiento al exportar a Amazon S3, haga lo siguiente:

  1. En el panel lateral Exportar a Amazon S3, desactive la opción Configuración automática de trabajos.

  2. Seleccione SageMaker Procesamiento.

  3. En Nombre del trabajo, introduzca un nombre para su trabajo de procesamiento de SageMaker IA.

  4. En Tipo de instancia, seleccione el tipo de instancia de computación para ejecutar el trabajo de procesamiento.

  5. En Número de instancias, especifique el número de instancias de computación que desea iniciar.

  6. En Rol de IAM, introduzca el rol de ejecución de IAM del usuario. Este rol debe tener los permisos necesarios para que la SageMaker IA cree y ejecute trabajos de procesamiento en tu nombre. Estos permisos se conceden si tienes la AmazonSageMakerFullAccesspolítica asociada a tu función de IAM.

  7. En Tamaño del volumen, introduzca el tamaño de almacenamiento en GB para el volumen de almacenamiento de ML asociado a cada instancia de procesamiento. Elija el tamaño en función del tamaño esperado de los datos de entrada y salida.

  8. (Opcional) En Clave de KMS del volumen, especifique una clave de KMS para cifrar el volumen de almacenamiento. Si no especifica una clave, se utiliza la clave de cifrado de Amazon EBS predeterminada.

  9. (Opcional) En Clave de KMS, especifique una clave de KMS para cifrar los orígenes de datos de entrada y salida de Amazon S3 utilizados por el trabajo de procesamiento.

  10. (Opcional) En Configuración de memoria Spark, haga lo siguiente:

    1. Introduzca Memoria del controlador en MB para el nodo del controlador de Spark que se encarga de la coordinación y programación de trabajos.

    2. Introduzca Memoria del ejecutor en MB para los nodos ejecutores de Spark que ejecutan tareas individuales del trabajo.

  11. (Opcional) En Configuración de red, haga lo siguiente:

    1. Para la configuración de subred, introduzca las subredes IDs de VPC en las que se van a lanzar las instancias de procesamiento. De forma predeterminada, el trabajo usa la configuración de la VPC predeterminada.

    2. Para configurar los grupos de seguridad, introduzca los grupos IDs de seguridad para controlar las reglas de conectividad entrante y saliente.

    3. Active la opción Habilitar el cifrado del tráfico entre contenedores para cifrar la comunicación de red entre los contenedores de procesamiento durante el trabajo.

  12. (Opcional) Para las programaciones de Associate, puedes elegir crear una EventBridge programación de Amazon para que el trabajo de procesamiento se ejecute en intervalos periódicos. Seleccione Crear nueva programación y rellene el cuadro de diálogo. Para obtener más información sobre cómo rellenar esta sección y ejecutar los trabajos de procesamiento de acuerdo con una programación, consulte Creación de una programación para procesar automáticamente los datos nuevos.

  13. (Opcional) Añada Etiquetas como pares clave-valor para clasificar y buscar trabajos de procesamiento.

  14. Elija Exportar para iniciar el trabajo de procesamiento.

Tras exportar los datos, debe encontrar el conjunto de datos completamente procesado en la ubicación de Amazon S3 especificada.