Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Exportar datos
Exporte los datos para aplicar las transformaciones de su flujo de datos a todo el conjunto de datos importado. Puede exportar cualquier nodo de su flujo de datos a las siguientes ubicaciones:
-
SageMaker Conjunto de datos Canvas
-
Amazon S3
Si desea entrenar modelos en Canvas, puede exportar su conjunto de datos completo y transformado como un conjunto de datos de Canvas. Si desea utilizar sus datos transformados en flujos de trabajo de aprendizaje automático externos a SageMaker Canvas, puede exportar su conjunto de datos a Amazon S3.
Exporte a un conjunto de datos de Canvas
Utilice el siguiente procedimiento para exportar un conjunto de datos de SageMaker Canvas desde un nodo de su flujo de datos.
Para exportar un nodo de su flujo como un conjunto de datos de SageMaker Canvas
-
Navegue hasta su flujo de datos.
-
Selecciona el icono de puntos suspensivos situado junto al nodo que vas a exportar.
-
En el menú contextual, coloca el cursor sobre Exportar y, a continuación, selecciona Exportar datos al conjunto de datos de Canvas.
-
En el panel lateral Exportar a un conjunto de datos de Canvas, introduce un nombre de conjunto de datos para el nuevo conjunto de datos.
-
Deje seleccionada la opción Procesar todo el conjunto de datos si desea que SageMaker Canvas procese y guarde todo el conjunto de datos. Desactive esta opción para aplicar las transformaciones únicamente a los datos de muestra con los que está trabajando en su flujo de datos.
-
Seleccione Exportar.
Ahora debería poder ir a la página de conjuntos de datos de la aplicación Canvas y ver el nuevo conjunto de datos.
Exportar a Amazon S3.
Al exportar sus datos a Amazon S3, puede escalarlos para transformar y procesar datos de cualquier tamaño. Canvas procesa automáticamente los datos de forma local si la memoria de la aplicación puede gestionar el tamaño del conjunto de datos. Si el tamaño de su conjunto de datos supera la capacidad de memoria local de 5 GB, Canvas inicia una tarea remota en su nombre para aprovisionar recursos informáticos adicionales y procesar los datos con mayor rapidez. De forma predeterminada, Canvas usa Amazon EMR Serverless para ejecutar estos trabajos remotos. Sin embargo, puede configurar Canvas manualmente para que utilice EMR Serverless o un trabajo de SageMaker procesamiento con sus propios ajustes.
nota
Al ejecutar un trabajo EMR sin servidor, de forma predeterminada, el trabajo hereda el IAM rol, los ajustes KMS clave y las etiquetas de su aplicación de Canvas.
A continuación se resumen las opciones para los trabajos remotos en Canvas:
-
EMRSin servidor: esta es la opción predeterminada que Canvas usa para los trabajos remotos. EMRServerless aprovisiona y escala automáticamente los recursos informáticos para procesar sus datos, de modo que no tenga que preocuparse por elegir los recursos informáticos adecuados para su carga de trabajo. Para obtener más información sobre EMR Serverless, consulte la Guía del usuario de EMRServerless.
-
SageMaker Procesamiento: los trabajos de SageMaker procesamiento ofrecen opciones más avanzadas y un control detallado de los recursos informáticos utilizados para procesar los datos. Por ejemplo, puede especificar el tipo y el recuento de las instancias informáticas, configurar el trabajo por su cuenta VPC y controlar el acceso a la red, automatizar los trabajos de procesamiento y mucho más. Para obtener más información sobre la automatización de los trabajos de procesamiento, consulteCree un cronograma para procesar automáticamente los nuevos datos. Para obtener más información general sobre los trabajos SageMaker de procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .
Se admiten los siguientes tipos de archivos al exportar a Amazon S3:
-
CSV
-
Parquet
Para empezar, revise los requisitos previos siguientes.
Requisitos previos para los trabajos EMR sin servidor
Para crear un trabajo remoto que utilice recursos EMR sin servidor, debe tener los permisos necesarios. Puedes conceder permisos a través de la configuración del SageMaker dominio de Amazon o del perfil de usuario, o puedes configurar manualmente el AWS IAM rol de tu usuario. Para obtener instrucciones sobre cómo conceder a los usuarios permisos para realizar un procesamiento de datos de gran tamaño, consulteConceda a los usuarios permisos para usar datos de gran tamaño durante todo el ciclo de vida del aprendizaje automático.
Si no desea configurar estas políticas, pero aun así necesita procesar grandes conjuntos de datos a través de Data Wrangler, también puede utilizar un SageMaker trabajo de procesamiento.
Utilice los siguientes procedimientos para exportar los datos a Amazon S3. Para configurar un trabajo remoto, siga los pasos avanzados opcionales.
Para exportar un nodo de su flujo a Amazon S3
-
Navegue hasta su flujo de datos.
-
Selecciona el icono de puntos suspensivos situado junto al nodo que vas a exportar.
-
En el menú contextual, pase el ratón sobre Exportar y, a continuación, seleccione Exportar datos a Amazon S3.
-
En el panel lateral Exportar a Amazon S3, puede cambiar el nombre del conjunto de datos del nuevo conjunto de datos.
-
Para la ubicación S3, introduzca la ubicación de Amazon S3 a la que desea exportar el conjunto de datos. Puede introducir el S3URI, el alias o la ubicación ARN de S3 o el punto de acceso de S3. Para obtener más información sobre los puntos de acceso, consulte Administrar el acceso a los datos con los puntos de acceso de Amazon S3 en la Guía del usuario de Amazon S3.
-
(Opcional) Para la configuración avanzada, especifique los valores de los siguientes campos:
-
Tipo de archivo: el formato de archivo de los datos exportados.
-
Delimitador: el delimitador que se utiliza para separar los valores del archivo.
-
Compresión: método de compresión utilizado para reducir el tamaño del archivo.
-
Número de particiones: el número de archivos de conjuntos de datos que Canvas escribe como salida del trabajo.
-
Elegir columnas: puede elegir un subconjunto de columnas de los datos para incluirlas en las particiones.
-
-
Deje seleccionada la opción Procesar todo el conjunto de datos si desea que Canvas aplique las transformaciones del flujo de datos a todo el conjunto de datos y exporte el resultado. Si deselecciona esta opción, Canvas solo aplica las transformaciones a la muestra de su conjunto de datos utilizada en el flujo de datos interactivo de Data Wrangler.
nota
Si solo exporta una muestra de sus datos, Canvas los procesa en la aplicación y no crea un trabajo remoto para usted.
-
Deje seleccionada la opción de configuración automática del trabajo si desea que Canvas determine automáticamente si debe ejecutar el trabajo utilizando la memoria de la aplicación Canvas o un trabajo EMR sin servidor. Si deselecciona esta opción y configura su trabajo manualmente, puede optar por utilizar un trabajo EMR sin servidor o uno de procesamiento. SageMaker Para obtener instrucciones sobre cómo configurar un trabajo EMR sin servidor o de SageMaker procesamiento, consulte la sección posterior a este procedimiento antes de exportar los datos.
-
Seleccione Exportar.
Los siguientes procedimientos muestran cómo configurar manualmente los ajustes del trabajo remoto para EMR Serverless o SageMaker Processing al exportar el conjunto de datos completo a Amazon S3.
Tras exportar los datos, debería encontrar el conjunto de datos completamente procesado en la ubicación de Amazon S3 especificada.