Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Exporte los datos para aplicar las transformaciones del flujo de datos a todo el conjunto de datos importado. Puede exportar cualquier nodo del flujo de datos a las siguientes ubicaciones:
-
SageMaker Conjunto de datos Canvas
-
Amazon S3
Si desea entrenar modelos en Canvas, puede exportar el conjunto de datos completo y transformado como conjunto de datos de Canvas. Si desea utilizar sus datos transformados en flujos de trabajo de aprendizaje automático externos a SageMaker Canvas, puede exportar su conjunto de datos a Amazon S3.
Exportación a un conjunto de datos de Canvas
Utilice el siguiente procedimiento para exportar un conjunto de datos de SageMaker Canvas desde un nodo de su flujo de datos.
Para exportar un nodo de su flujo como un conjunto de datos de SageMaker Canvas
-
Vaya al flujo de datos.
-
Elija el icono de puntos suspensivos junto al nodo que está exportando.
-
En el menú contextual, coloque el cursor sobre Exportar y, a continuación, seleccione Exportar datos al conjunto de datos de Canvas.
-
En el panel lateral Exportar a conjunto de datos de Canvas, introduzca un Nombre del conjunto de datos para el nuevo conjunto de datos.
-
Deje seleccionada la opción Procesar todo el conjunto de datos si desea que SageMaker Canvas procese y guarde todo el conjunto de datos. Desactive esta opción para aplicar las transformaciones solo a los datos de muestra con los que está trabajando en el flujo de datos.
-
Seleccione Exportar.
Ahora debería poder ir a la página de Conjuntos de datos de la aplicación de Canvas y ver el nuevo conjunto de datos.
Exportar a Amazon S3.
Al exportar datos a Amazon S3, puede escalarlos para transformar y procesar datos de cualquier tamaño. Canvas procesa automáticamente los datos de forma local si la memoria de la aplicación puede gestionar el tamaño del conjunto de datos. Si el tamaño del conjunto de datos supera la capacidad de memoria local de 5 GB, Canvas inicia una tarea remota en su nombre para aprovisionar recursos de computación adicionales y procesar los datos con mayor rapidez. De forma predeterminada, Canvas usa Amazon EMR Serverless para ejecutar estos trabajos remotos. Sin embargo, puede configurar Canvas manualmente para que utilice EMR Serverless o un trabajo de SageMaker procesamiento con sus propios ajustes.
nota
Al ejecutar un trabajo EMR sin servidor, de forma predeterminada, el trabajo hereda el IAM rol, los ajustes KMS clave y las etiquetas de su aplicación de Canvas.
A continuación, se resumen las opciones de los trabajos remotos en Canvas:
-
EMRSin servidor: esta es la opción predeterminada que Canvas usa para los trabajos remotos. EMR Serverless aprovisiona y escala automáticamente los recursos informáticos para procesar sus datos, de modo que no tenga que preocuparse por elegir los recursos informáticos adecuados para su carga de trabajo. Para obtener más información sobre EMR Serverless, consulte la Guía del usuario de EMRServerless.
-
SageMaker Procesamiento: los trabajos de SageMaker procesamiento ofrecen opciones más avanzadas y un control detallado de los recursos informáticos utilizados para procesar los datos. Por ejemplo, puede especificar el tipo y el recuento de las instancias informáticas, configurar el trabajo por su cuenta VPC y controlar el acceso a la red, automatizar los trabajos de procesamiento y mucho más. Para obtener más información sobre la automatización de trabajos de procesamiento, consulte Creación de una programación para procesar automáticamente los datos nuevos. Para obtener más información general sobre los trabajos de SageMaker procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .
Se admiten los siguientes tipos de archivos al exportar a Amazon S3:
-
CSV
-
Parquet
Para empezar, revise los requisitos previos siguientes.
Requisitos previos para los trabajos EMR sin servidor
Para crear un trabajo remoto que utilice recursos EMR sin servidor, debe tener los permisos necesarios. Puedes conceder permisos a través del dominio de Amazon SageMaker AI o de la configuración del perfil de usuario, o puedes configurar manualmente el AWS IAM rol de tu usuario. Para obtener instrucciones sobre cómo conceder a los usuarios permisos para realizar procesamiento de datos de gran tamaño, consulte Concesión de permisos a los usuarios para usar datos de gran tamaño durante todo el ciclo de vida de ML.
Si no quieres configurar estas políticas, pero aun así necesitas procesar grandes conjuntos de datos a través de Data Wrangler, también puedes usar un SageMaker trabajo de procesamiento.
Siga este procedimiento para exportar los datos a Amazon S3. Para configurar un trabajo remoto, siga los pasos avanzados opcionales.
Exportación de un nodo del flujo a Amazon S3
-
Vaya al flujo de datos.
-
Elija el icono de puntos suspensivos junto al nodo que está exportando.
-
En el menú contextual, coloque el cursor sobre Exportar y, a continuación, seleccione Exportar datos a Amazon S3.
-
En el panel lateral Exportar a Amazon S3, puede cambiar el Nombre del conjunto de datos del nuevo conjunto de datos.
-
En Ubicación de S3, introduzca la ubicación de Amazon S3 a la que desea exportar el conjunto de datos. Puede introducir el S3URI, el alias o la ubicación ARN de S3 o el punto de acceso S3. Para obtener más información sobre los puntos de acceso, consulte Administración del acceso a datos con puntos de acceso de Amazon S3 en la Guía del usuario de Amazon S3.
-
(Opcional) En Configuración avanzada, especifique valores para los campos siguientes:
-
Tipo de archivo: formato de archivo de los datos exportados.
-
Delimitador: delimitador utilizado para separar los valores del archivo.
-
Compresión: método de compresión utilizado para reducir el tamaño del archivo.
-
Número de particiones: número de archivos de conjunto de datos que Canvas escribe como salida del trabajo.
-
Elegir columnas: puede elegir un subconjunto de columnas de los datos para incluirlas en las particiones.
-
-
Deje seleccionada la opción Procesar todo el conjunto de datos si desea que Canvas aplique las transformaciones del flujo de datos a todo el conjunto de datos y exporte el resultado. Si anula la selección de esta opción, Canvas solo aplica las transformaciones a la muestra del conjunto de datos utilizada en el flujo de datos interactivo de Data Wrangler.
nota
Si solo exporta una muestra de los datos, Canvas los procesa en la aplicación y no crea un trabajo remoto.
-
Deje seleccionada la opción de configuración automática del trabajo si desea que Canvas determine automáticamente si debe ejecutar el trabajo utilizando la memoria de la aplicación Canvas o un trabajo EMR sin servidor. Si deselecciona esta opción y configura su trabajo manualmente, puede optar por utilizar un trabajo EMR sin servidor o uno de procesamiento. SageMaker Para obtener instrucciones sobre cómo configurar un trabajo EMR sin servidor o de SageMaker procesamiento, consulte la sección posterior a este procedimiento antes de exportar los datos.
-
Seleccione Exportar.
Los siguientes procedimientos muestran cómo configurar manualmente los ajustes del trabajo remoto para EMR Serverless o SageMaker Processing al exportar el conjunto de datos completo a Amazon S3.
Para configurar un trabajo EMR sin servidor al exportar a Amazon S3, haga lo siguiente:
-
En el panel lateral Exportar a Amazon S3, desactive la opción Configuración automática de trabajos.
-
Seleccione EMRServerless.
-
En Nombre del trabajo, introduzca un nombre para el trabajo EMR sin servidor. El nombre puede contener letras, números, guiones y guiones bajos.
-
En IAMrol, introduzca el rol de IAM ejecución del usuario. Este rol debe tener los permisos necesarios para ejecutar aplicaciones EMR sin servidor. Para obtener más información, consulte Concesión de permisos a los usuarios para usar datos de gran tamaño durante todo el ciclo de vida de ML.
-
(Opcional) Como KMSclave, especifique el ID de la clave o el ARN de una clave AWS KMS key para cifrar los registros de trabajos. Si no ingresa una clave, Canvas usa una clave predeterminada para EMR Serverless.
-
(Opcional) Para la configuración de monitorización, introduce el nombre del grupo de CloudWatch registros de Amazon Logs en el que quieras publicar tus registros.
-
(Opcional) En el caso de las etiquetas, añada etiquetas de metadatos al trabajo EMR sin servidor compuesto por pares clave-valor. Estas etiquetas se pueden usar para clasificar y buscar trabajos.
-
Elija Export para iniciar el trabajo.
Tras exportar los datos, debe encontrar el conjunto de datos completamente procesado en la ubicación de Amazon S3 especificada.