Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Creación de un flujo de datos
Utilice un flujo de Data Wrangler en SageMaker Canvas, o flujo de datos, para crear y modificar una canalización de preparación de datos. Le recomendamos que utilice Data Wrangler para conjuntos de datos de más de 5 GB.
Para comenzar, siga este procedimiento detallado para importar los datos a un flujo de datos.
-
Abre Canvas SageMaker .
-
En el panel de navegación izquierdo, elija Data Wrangler.
-
Seleccione Importar y preparar.
-
En el menú desplegable, seleccione Tabular o Imagen.
-
En Seleccionar un origen de datos, elija un origen de datos y seleccione los datos que desea importar. Tiene la opción de seleccionar hasta 30 archivos o una carpeta. Si ya ha importado un conjunto de datos a Canvas, elija el Conjunto de datos de Canvas como origen. De lo contrario, conéctese a un origen de datos como Amazon S3 o Snowflake y explore los datos. Para obtener información sobre cómo conectarse a un origen de datos o importar datos, consulte las páginas siguientes:
-
Después de seleccionar los datos que desea importar, elija Siguiente.
-
(Opcional) En la sección Configuración de importación al importar un conjunto de datos tabular, expanda el menú desplegable Avanzado. Puede especificar la siguiente configuración avanzada para la importación de flujos de datos:
Método de muestreo: seleccione el método de muestreo y el tamaño de la muestra que desee utilizar. Para obtener más información sobre cómo cambiar la muestra, consulte la sección Edición de la configuración de muestreo del flujo de datos.
Codificación de archivos (CSV): seleccione la codificación del archivo del conjunto de datos.
UTF-8
es la predeterminada.Omitir primeras filas: introduzca el número de filas que desea omitir de la importación si hay filas redundantes al principio del conjunto de datos.
Delimitador: seleccione el delimitador que separa cada elemento de los datos. También puede especificar un delimitador personalizado.
Detección de varias líneas: seleccione esta opción si desea que Canvas analice manualmente todo el conjunto de datos en busca de celdas de varias líneas. Canvas determina si se usa o no la compatibilidad con varias líneas tomando una muestra de los datos, pero es posible que Canvas no detecte ninguna celda de varias líneas en la muestra. En este caso, le recomendamos que seleccione la opción Detección de varias líneas para obligar a Canvas a comprobar si hay celdas de varias líneas en todo el conjunto de datos.
-
Seleccione Importar.
Ahora debería tener un nuevo flujo de datos y poder empezar a añadir pasos de transformación y análisis.