Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Exportar datos
Exporte los datos para aplicar las transformaciones del flujo de datos a todo el conjunto de datos importado. Puede exportar cualquier nodo del flujo de datos a las siguientes ubicaciones:
-
SageMaker Conjunto de datos Canvas
-
Amazon S3
Si desea entrenar modelos en Canvas, puede exportar el conjunto de datos completo y transformado como conjunto de datos de Canvas. Si desea utilizar sus datos transformados en flujos de trabajo de aprendizaje automático externos a SageMaker Canvas, puede exportar su conjunto de datos a Amazon S3.
Exportación a un conjunto de datos de Canvas
Utilice el siguiente procedimiento para exportar un conjunto de datos de SageMaker Canvas desde un nodo de su flujo de datos.
Para exportar un nodo de su flujo como un conjunto de datos de SageMaker Canvas
-
Vaya al flujo de datos.
-
Elija el icono de puntos suspensivos junto al nodo que está exportando.
-
En el menú contextual, coloque el cursor sobre Exportar y, a continuación, seleccione Exportar datos al conjunto de datos de Canvas.
-
En el panel lateral Exportar a conjunto de datos de Canvas, introduzca un Nombre del conjunto de datos para el nuevo conjunto de datos.
-
Deje seleccionada la opción Procesar todo el conjunto de datos si desea que SageMaker Canvas procese y guarde todo el conjunto de datos. Desactive esta opción para aplicar las transformaciones solo a los datos de muestra con los que está trabajando en el flujo de datos.
-
Seleccione Exportar.
Ahora debería poder ir a la página de Conjuntos de datos de la aplicación de Canvas y ver el nuevo conjunto de datos.
Exportar a Amazon S3.
Al exportar datos a Amazon S3, puede escalarlos para transformar y procesar datos de cualquier tamaño. Canvas procesa automáticamente los datos de forma local si la memoria de la aplicación puede gestionar el tamaño del conjunto de datos. Si el tamaño del conjunto de datos supera la capacidad de memoria local de 5 GB, Canvas inicia una tarea remota en su nombre para aprovisionar recursos de computación adicionales y procesar los datos con mayor rapidez. De forma predeterminada, Canvas usa Amazon EMR sin servidor para ejecutar estos trabajos remotos. Sin embargo, puede configurar Canvas manualmente para que utilice EMR Serverless o un trabajo de SageMaker procesamiento con sus propios ajustes.
nota
Al ejecutar un trabajo sin servidor de EMR, de forma predeterminada, el trabajo hereda el rol de IAM, la configuración clave de KMS y las etiquetas de la aplicación de Canvas.
A continuación, se resumen las opciones de los trabajos remotos en Canvas:
-
EMR sin servidor: es la opción predeterminada que usa Canvas para trabajos remotos. EMR sin servidor aprovisiona y escala automáticamente los recursos de computación para procesar los datos, de modo que no tenga que preocuparse por elegir los recursos de computación adecuados para la carga de trabajo. Para obtener más información sobre EMR sin servidor, consulte la Guía del usuario de EMR sin servidor.
-
SageMaker Procesamiento: los trabajos de SageMaker procesamiento ofrecen opciones más avanzadas y un control detallado de los recursos informáticos utilizados para procesar los datos. Por ejemplo, puede especificar el tipo y el recuento de las instancias de computación, configurar el trabajo en su propia VPC y controlar el acceso a la red, automatizar los trabajos de procesamiento, etc. Para obtener más información sobre la automatización de trabajos de procesamiento, consulte Creación de una programación para procesar automáticamente los datos nuevos. Para obtener más información general sobre los trabajos de SageMaker procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .
Se admiten los siguientes tipos de archivos al exportar a Amazon S3:
-
CSV
-
Parquet
Para empezar, revise los requisitos previos siguientes.
Requisitos previos para trabajos de EMR sin servidor
Para crear un trabajo remoto que utilice recursos de EMR sin servidor debe tener los permisos necesarios. Puede conceder permisos a través del dominio de Amazon SageMaker AI o de la configuración del perfil de usuario, o bien puede configurar manualmente el rol de AWS IAM del usuario. Para obtener instrucciones sobre cómo conceder a los usuarios permisos para realizar procesamiento de datos de gran tamaño, consulte Concesión de permisos a los usuarios para usar datos de gran tamaño durante todo el ciclo de vida de ML.
Si no quieres configurar estas políticas, pero aun así necesitas procesar grandes conjuntos de datos a través de Data Wrangler, también puedes usar un trabajo de procesamiento. SageMaker
Siga este procedimiento para exportar los datos a Amazon S3. Para configurar un trabajo remoto, siga los pasos avanzados opcionales.
Exportación de un nodo del flujo a Amazon S3
-
Vaya al flujo de datos.
-
Elija el icono de puntos suspensivos junto al nodo que está exportando.
-
En el menú contextual, coloque el cursor sobre Exportar y, a continuación, seleccione Exportar datos a Amazon S3.
-
En el panel lateral Exportar a Amazon S3, puede cambiar el Nombre del conjunto de datos del nuevo conjunto de datos.
-
En Ubicación de S3, introduzca la ubicación de Amazon S3 a la que desea exportar el conjunto de datos. Puede introducir el URI, el alias o el ARN de S3 de la ubicación de S3 o el punto de acceso de S3. Para obtener más información sobre los puntos de acceso, consulte Administración del acceso a datos con puntos de acceso de Amazon S3 en la Guía del usuario de Amazon S3.
-
(Opcional) En Configuración avanzada, especifique valores para los campos siguientes:
-
Tipo de archivo: formato de archivo de los datos exportados.
-
Delimitador: delimitador utilizado para separar los valores del archivo.
-
Compresión: método de compresión utilizado para reducir el tamaño del archivo.
-
Número de particiones: número de archivos de conjunto de datos que Canvas escribe como salida del trabajo.
-
Elegir columnas: puede elegir un subconjunto de columnas de los datos para incluirlas en las particiones.
-
-
Deje seleccionada la opción Procesar todo el conjunto de datos si desea que Canvas aplique las transformaciones del flujo de datos a todo el conjunto de datos y exporte el resultado. Si anula la selección de esta opción, Canvas solo aplica las transformaciones a la muestra del conjunto de datos utilizada en el flujo de datos interactivo de Data Wrangler.
nota
Si solo exporta una muestra de los datos, Canvas los procesa en la aplicación y no crea un trabajo remoto.
-
Deje seleccionada la opción Configuración automática de trabajos si desea que Canvas determine automáticamente si se debe ejecutar el trabajo con la memoria de la aplicación de Canvas o con un trabajo de EMR sin servidor. Si deselecciona esta opción y configura el trabajo manualmente, puede optar por utilizar un trabajo EMR Serverless o SageMaker un trabajo de procesamiento. Para obtener instrucciones sobre cómo configurar un EMR sin servidor o un trabajo de SageMaker procesamiento, consulte la sección posterior a este procedimiento antes de exportar los datos.
-
Seleccione Exportar.
Los siguientes procedimientos muestran cómo configurar manualmente los ajustes del trabajo remoto para EMR Serverless o SageMaker Processing al exportar el conjunto de datos completo a Amazon S3.
Tras exportar los datos, debe encontrar el conjunto de datos completamente procesado en la ubicación de Amazon S3 especificada.