Importación de datos tabulares Importación de datos de imágenes Importación de datos de documentos Visualización de detalles de su conjunto de datos

Creación de un conjunto de datos

nota

Si importa conjuntos de datos de más de 5 GB en Amazon SageMaker Canvas, le recomendamos que utilice la característica Data Wrangler de Canvas para crear un flujo de datos. Data Wrangler admite características avanzadas de preparación de datos, como unir y concatenar datos. Después de crear un flujo de datos, puede exportarlo como conjunto de datos de Canvas y empezar a crear un modelo. Para obtener más información, consulte Exportación para crear un modelo.

En las secciones siguientes, se describe cómo crear un conjunto de datos en Amazon SageMaker Canvas. Para los modelos personalizados, puede crear conjuntos de datos para datos tabulares y de imágenes. Para ver modelos listos para usar, puede usar conjuntos de datos tabulares y de imágenes, así como conjuntos de datos de documentos. Elija el flujo de trabajo en función de la siguiente información:

Para obtener datos categóricos, numéricos, de texto y de series temporales, consulte Importación de datos tabulares.
Para obtener datos de imágenes, consulte Importación de datos de imágenes.
Para ver datos de documentos, consulte Importación de datos de documentos.

Un conjunto de datos puede constar de varios archivos. Por ejemplo, es posible que tenga varios archivos de datos de inventario en formato CSV. Puede cargar estos archivos juntos como un conjunto de datos siempre que el esquema (o los nombres de las columnas y los tipos de datos) de los archivos coincidan.

Canvas también admite la administración de múltiples versiones de su conjunto de datos. Al crear un conjunto de datos, la primera versión se etiqueta como V1. Puede crear una nueva versión de su conjunto de datos actualizándolo. Puede realizar una actualización manual o configurar un cronograma automatizado para las actualizaciones de su conjunto de datos con nuevos datos. Para obtener más información, consulte Actualización de un conjunto de datos.

Al importar los datos en Canvas, debe asegurarse de que cumplan con los requisitos de la siguiente tabla. Las limitaciones son específicas del tipo de modelo que esté creando.

Límite	Modelos de 2 categorías, de más de 3 categorías, numéricos y de series temporales	Modelos de predicción de texto	Modelos de predicción de imágenes	*Datos de documentos para modelos listos para usar
Tipos de archivo admitidos	CSV y Parquet (carga local, Amazon S3 o bases de datos) JSON (bases de datos)	CSV y Parquet (carga local, Amazon S3 o bases de datos) JSON (bases de datos)	JPG, PNG	PDF, JPG, PNG, TIFF
Tamaño máximo de archivo	Carga local: 5 GB Orígenes de datos: PBs	Carga local: 5 GB Orígenes de datos: PBs	30 MB por imagen	5 MB por documento
Número máximo de archivos que puede cargar a la vez	30	30	N/A	N/A
Número máximo de columnas.	1 000	1 000	N/A	N/A
Número máximo de entradas (filas, imágenes o documentos) para las compilaciones rápidas	N/A	7500 filas	5000 imágenes	N/A
Número máximo de entradas (filas, imágenes o documentos) para las compilaciones estándares	N/A	150 000 filas	180 000 imágenes	N/A
Número mínimo de entradas (filas) para compilaciones rápidas	2 categorías: 500 filas Más de 3 categorías, numéricos, serie temporal: N/A	N/A	N/A	N/A
Número mínimo de entradas (filas, imágenes o documentos) para las compilaciones estándares	250 filas	50 filas	50 imágenes	N/A
Número mínimo de entradas (filas o imágenes) por etiqueta	N/A	25 filas	25 filas	N/A
Número mínimo de etiquetas	2 categorías: 2 Más de 3 categorías: 3 Numérico, serie temporal: N/A	2	2.	N/A
Tamaño mínimo de la muestra para el muestreo aleatorio	500	N/A	N/A	N/A
Tamaño máximo de la muestra para el muestreo aleatorio	200.000	N/A	N/A	N/A
Número máximo de etiquetas	2 categorías: 2 Más de 3 categorías, numéricos, serie temporal: N/A	1 000	1 000	N/A

*Actualmente, los datos de los documentos solo se admiten en los modelos listos para usar que acepten datos de documentos. No puede crear un modelo personalizado con datos de documentos.

Tenga en cuenta también las siguientes restricciones:

Al importar datos desde un bucket de Amazon S3, asegúrese de que el nombre de su bucket de Amazon S3 no contenga un .. Si el nombre del bucket contiene un ., puede experimentar errores al intentar importar datos a Canvas.
Para los datos tabulares, Canvas no permite seleccionar ningún archivo con extensiones distintas de .csv, .parquet, .parq y .pqt tanto para la carga local como para la importación a Amazon S3. Los archivos CSV pueden utilizar cualquier delimitador común o personalizado y no deben tener caracteres de nueva línea, excepto cuando indiquen una fila nueva.
Para los datos tabulares que utilizan archivos Parquet, tenga en cuenta lo siguiente:
- Los archivos Parquet no pueden incluir tipos complejos, como mapas y listas.
- Los nombres de columna de los archivos de Parquet no pueden contener espacios.
- Si se utiliza compresión, los archivos de Parquet deben utilizar los tipos de compresión gzip o snappy. Para obtener más información sobre los tipos de compresión anteriores, consulte la documentación de gzip y la documentación de snappy.
En el caso de los datos de imágenes, si tiene imágenes sin etiquetar, debe etiquetarlas antes de crear el modelo. Para obtener información sobre cómo asignar etiquetas a las imágenes dentro de la aplicación de Canvas, consulte Edición de un conjunto de datos de imágenes.
Si configura actualizaciones automáticas de conjuntos de datos o configuraciones automáticas de predicción por lotes, solo podrá crear un total de 20 configuraciones en su aplicación de Canvas. Para obtener más información, consulte ¿Cómo administrar las automatizaciones.

Después de importar un conjunto de datos, puede verlos en la página Conjuntos de datos en cualquier momento.

Importación de datos tabulares

Con los conjuntos de datos tabulares, puede crear modelos categóricos, numéricos, de previsión de series temporales y de predicción de texto. Revise la tabla de limitaciones de la sección anterior Importación de un conjunto de datos para asegurarse de que los datos cumplen los requisitos de datos tabulares.

Utilice el siguiente procedimiento para importar un conjunto de datos tabulares a Canvas:

Abra la aplicación de SageMaker Canvas.
En el panel de navegación de la izquierda, elija Conjuntos de datos.
Elija Importar datos.
En el menú desplegable, seleccione Tabular.
En el cuadro de diálogo emergente, en el campo Nombre del conjunto de datos, introduzca un nombre para el conjunto de datos y elija Crear.
En la página Crear conjunto de datos tabular, abra el menú desplegable Origen de datos.
Elija el origen de datos:
- Para cargar un archivo desde su equipo, elija Carga local.
- Para importar datos de otro origen, como un bucket de Amazon S3 o una base de datos de Snowflake, busque el origen de datos en la barra Buscar origen de datos. A continuación, elija el mosaico del origen de datos que desee.
  
  nota
  Solo puede importar datos de los mosaicos que tengan una conexión activa. Si desea conectarse a un origen de datos que no tenga disponible, póngase en contacto con su administrador. Si es un administrador, consulte Conexión con orígenes de datos.
En la siguiente captura de pantalla se muestra el menú desplegable Origen de datos.
(Opcional) Si se conecta a una base de datos de Amazon Redshift o Snowflake por primera vez, aparece un cuadro de diálogo para crear una conexión. Rellene el cuadro de diálogo con sus credenciales y seleccione Crear conexión. Si ya tiene una conexión, elija la que tenga.
En el origen de datos, seleccione los archivos que quiera importar. Para cargar e importar archivos de forma local desde Amazon S3, puede seleccionar archivos. En Amazon S3 exclusivamente, también tiene la opción de introducir directamente el URI, el alias o el ARN de S3 del bucket o punto de acceso de S3 en el campo Punto de conexión de entrada de S3 y, a continuación, elija los archivos que desee importar. Para los orígenes de bases de datos, puede arrastrar y soltar las tablas de datos desde el panel de navegación izquierdo.
(Opcional) Para los orígenes de datos tabulares compatibles con consultas SQL (como Amazon Redshift, Amazon Athena o Snowflake), puede elegir Editar en SQL para realizar consultas SQL antes de importarlas.

La siguiente captura de pantalla muestra la vista Editar SQL de un origen de datos de Amazon Athena.
Elija Vista previa del conjunto de datos para obtener una vista previa del conjunto de datos antes de importarlo.
En Configuración de importación, introduzca un Nombre del conjunto de datos o utilice el nombre de conjunto de datos predeterminado.
(Opcional) En el caso de los datos que importa desde Amazon S3, se mostrará la configuración Avanzada y podrá rellenar los siguientes campos:
1. Active la opción Usar primera fila como encabezado si quiere usar la primera fila del conjunto de datos para los nombres de columnas. Si ha seleccionado varios archivos, se aplica a cada uno de ellos.
2. Si va a importar un archivo CSV, en el menú desplegable Codificación de archivos (CSV), seleccione la codificación del archivo de conjunto de datos. UTF-8 es la predeterminada.
3. En el menú desplegable Delimitador, seleccione el delimitador que separa cada celda de los datos. El delimitador predeterminado es ,. También puede especificar un delimitador personalizado.
4. Seleccione Detección de varias líneas si desea que Canvas analice manualmente todo el conjunto de datos en busca de celdas de varias líneas. Esta opción no está seleccionada de forma predeterminada y Canvas determina si usa o no la compatibilidad con varias líneas tomando una muestra de los datos. Sin embargo, es posible que Canvas no detecte ninguna celda de varias líneas en la muestra. Si tiene celdas de varias líneas, le recomendamos que seleccione la opción Detección de varias líneas para obligar a Canvas a comprobar si hay celdas de varias líneas en todo el conjunto de datos.
Cuando esté listo para importar sus datos, elija Crear conjunto de datos.

Mientras su conjunto de datos se importa a Canvas, puede ver sus conjuntos de datos enumerados en la página Conjuntos de datos. En esta página puede Visualización de detalles de su conjunto de datos.

Cuando el Estado de su conjunto de datos se muestre como Ready, Canvas habrá importado sus datos correctamente y podrá continuar con la creación de un modelo.

Si tiene una conexión a un origen de datos, como una base de datos de Amazon Redshift o un conector de SaaS, puede volver a esa conexión. Para Amazon Redshift y Snowflake, puede agregar otra conexión creando otro conjunto de datos, volviendo a la página Importar datos y eligiendo el mosaico de Origen de datos para esa conexión. En el menú desplegable, puede abrir la conexión anterior o elegir Agregar conexión.

nota

Para las plataformas de SaaS, solo puede tener una conexión por origen de datos.

Importación de datos de imágenes

Con los conjuntos de datos de imágenes, puede crear modelos personalizados de predicción de imágenes de una sola etiqueta, que predicen la etiqueta de una imagen. Revise la tabla de limitaciones de la sección anterior Importación de un conjunto de datos para asegurarse de que el conjunto de datos de imágenes cumpla con los requisitos de datos de imágenes.

nota

Solo puede importar conjuntos de datos de imágenes desde una carga de archivo local o un bucket de Amazon S3. Además, para los conjuntos de datos de imágenes, debe tener al menos 25 imágenes por etiqueta.

Utilice el siguiente procedimiento para importar un conjunto de datos de imágenes a Canvas:

Abra la aplicación de SageMaker Canvas.
En el panel de navegación de la izquierda, elija Conjuntos de datos.
Elija Importar datos.
En el menú desplegable, seleccione Imagen.
En el cuadro de diálogo emergente, en el campo Nombre del conjunto de datos, introduzca un nombre para el conjunto de datos y elija Crear.
En la página Importar, abra el menú desplegable Origen de datos.
Elija el origen de datos. Para cargar un archivo desde su equipo, elija Carga local. Para importar archivos desde Amazon S3, elija Amazon S3.
Desde su equipo o desde un bucket de Amazon S3, seleccione las imágenes o carpetas de imágenes que quiera cargar.
Cuando esté listo para importar sus datos, elija Importar datos.

Cuando el Estado de su conjunto de datos se muestre como Ready, Canvas habrá importado sus datos correctamente y podrá continuar con la creación de un modelo.

Al crear su modelo, puede editar su conjunto de datos de imágenes y puede asignar o reasignar etiquetas, agregar imágenes o eliminar imágenes de su conjunto de datos. Para obtener más información acerca de la edición de un conjunto de datos de imágenes, consulte Edición de un conjunto de datos de imágenes.

Importación de datos de documentos

Los modelos listos para usar para el análisis de gastos, el análisis de documentos de identidad, el análisis de documentos y las consultas de documentos admiten los datos de documentos. No puede crear un modelo personalizado con datos de documentos.

Con los conjuntos de datos de documentos, puede generar predicciones para los modelos listos para usar de análisis de gastos, análisis de documentos de identidad, análisis de documentos y consultas de documentos. Revise la tabla de limitaciones de la sección Creación de un conjunto de datos para asegurarse de que el conjunto de datos de documentos cumpla con los requisitos de datos de documentos.

nota

Solo puede importar conjuntos de datos de documentos desde una carga de archivo local o un bucket de Amazon S3.

Utilice el siguiente procedimiento para importar un conjunto de datos de documentos a Canvas:

Abra la aplicación de SageMaker Canvas.
En el panel de navegación de la izquierda, elija Conjuntos de datos.
Elija Importar datos.
En el menú desplegable, elija Documento.
En el cuadro de diálogo emergente, en el campo Nombre del conjunto de datos, introduzca un nombre para el conjunto de datos y elija Crear.
En la página Importar, abra el menú desplegable Origen de datos.
Elija el origen de datos. Para cargar un archivo desde su equipo, elija Carga local. Para importar archivos desde Amazon S3, elija Amazon S3.
Desde su equipo o desde un bucket de Amazon S3, seleccione los archivos de documentos que desee cargar.
Cuando esté listo para importar sus datos, elija Importar datos.

Cuando el Estado de su conjunto de datos aparezca como Ready, eso querrá decir que Canvas ha importado sus datos correctamente.

En la página Conjuntos de datos, puede elegir su conjunto de datos para obtener una vista previa, que muestra los primeros 100 documentos de su conjunto de datos.

Visualización de detalles de su conjunto de datos

Para cada uno de sus conjuntos de datos, puede ver todos los archivos de un conjunto de datos, el historial de versiones del conjunto de datos y cualquier configuración de actualización automática del conjunto de datos. Desde la página Conjuntos de datos, también puede iniciar acciones como Actualización de un conjunto de datos o Cómo funcionan los modelos personalizados.

Para ver los detalles de un conjunto de datos, haga lo siguiente:

Abra la aplicación de SageMaker Canvas.
En el panel de navegación de la izquierda, elija Conjuntos de datos.
En la lista de conjuntos de datos, elija su conjunto de datos.

En la pestaña Datos, puede ver una vista previa de sus datos. Si elige Detalles del conjunto de datos, puede ver todos los archivos que forman parte de su conjunto de datos. Elija un archivo para ver solo los datos de ese archivo en la vista previa. En el caso de los conjuntos de datos de imágenes, la vista previa solo muestra las 100 primeras imágenes del conjunto de datos.

En la pestaña Historial de versiones, puede ver una lista de todas las versiones de su conjunto de datos. Cada vez que actualiza un conjunto de datos, se crea una nueva versión. Para obtener más información sobre la actualización de un conjunto de datos, consulte Actualización de un conjunto de datos. La siguiente captura de pantalla muestra la pestaña Historial de versiones de la aplicación de Canvas.

Captura de pantalla de la pestaña Historial de versiones de un conjunto de datos, con una lista de las versiones del conjunto de datos.

En la pestaña Actualizaciones automáticas, puede habilitar las actualizaciones automáticas para el conjunto de datos y establecer una configuración para actualizar su conjunto de datos de forma habitual. Para obtener más información sobre cómo configurar las actualizaciones automáticas para un conjunto de datos, consulte Configuración de las actualizaciones automáticas de un conjunto de datos. La siguiente captura de pantalla muestra la pestaña Actualizaciones automáticas con las actualizaciones automáticas activadas y una lista de los trabajos de actualización automática que se han realizado en el conjunto de datos.

La pestaña Actualizaciones automáticas de un conjunto de datos muestra las actualizaciones automáticas activadas y una lista de trabajos de actualización automática.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Importación de datos

Actualización de un conjunto de datos