Creación de un conjunto de datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un conjunto de datos

nota

Si va a importar conjuntos de datos de más de 5 GB a Amazon SageMaker Canvas, le recomendamos que utilice la función Data Wrangler de Canvas para crear un flujo de datos. Data Wrangler admite funciones avanzadas de preparación de datos, como unir y concatenar datos. Después de crear un flujo de datos, puede exportarlo como un conjunto de datos de Canvas y empezar a crear un modelo. Para obtener más información, consulte Exporte para crear un modelo.

En las siguientes secciones se describe cómo crear un conjunto de datos en Amazon SageMaker Canvas. Para los modelos personalizados, puede crear conjuntos de datos para datos tabulares y de imágenes. Para Ready-to-use los modelos, puede usar conjuntos de datos tabulares y de imágenes, así como conjuntos de datos de documentos. Elija el flujo de trabajo en función de la siguiente información:

Un conjunto de datos puede constar de varios archivos. Por ejemplo, puede que tengas varios archivos de datos de inventario en CSV formato. Puede cargar estos archivos juntos como un conjunto de datos siempre que el esquema (o los nombres de las columnas y los tipos de datos) de los archivos coincidan.

Canvas también admite la administración de múltiples versiones de su conjunto de datos. Al crear un conjunto de datos, la primera versión se etiqueta como V1. Puede crear una nueva versión de su conjunto de datos actualizándolo. Puede realizar una actualización manual o configurar un cronograma automatizado para las actualizaciones de su conjunto de datos con nuevos datos. Para obtener más información, consulte Actualización de un conjunto de datos.

Al importar los datos en Canvas, debe asegurarse de que cumplan con los requisitos de la siguiente tabla. Las limitaciones son específicas del tipo de modelo que esté creando.

Límite Modelos de 2 categorías, de más de 3 categorías, numéricos y de series temporales Modelos de predicción de texto Modelos de predicción de imágenes *Documente los datos de los modelos Ready-to-use

Tipos de archivo admitidos

CSVy Parquet (carga local, Amazon S3 o bases de datos)

JSON(bases de datos)

CSVy Parquet (carga local, Amazon S3 o bases de datos)

JSON(bases de datos)

JPG, PNG

PDF, JPG, PNG, TIFF

Tamaño máximo de archivo

Carga local: 5 GB

Fuentes de datos: PBs

Carga local: 5 GB

Fuentes de datos: PBs

30 MB por imagen

5 MB por documento

Número máximo de archivos que puede cargar a la vez

30

30

N/A

N/A

Número máximo de columnas.

1 000

1 000

N/A

N/A

Número máximo de entradas (filas, imágenes o documentos) para las compilaciones rápidas

N/A

7500 filas

5000 imágenes

N/A

Número máximo de entradas (filas, imágenes o documentos) para las compilaciones estándares

N/A

150 000 filas

180 000 imágenes

N/A

Número mínimo de entradas (filas) para compilaciones rápidas

2 categorías: 500 filas

Más de 3 categorías, numéricos, serie temporal: N/A

N/A

N/A

N/A

Número mínimo de entradas (filas, imágenes o documentos) para las compilaciones estándares

250 filas

50 filas

50 imágenes

N/A

Número mínimo de entradas (filas o imágenes) por etiqueta

N/A

25 filas

25 filas

N/A

Número mínimo de etiquetas

2 categorías: 2

Más de 3 categorías: 3

Numérico, serie temporal: N/A

2

2.

N/A

Tamaño mínimo de la muestra para el muestreo aleatorio

500

N/A

N/A

N/A

Tamaño máximo de la muestra para el muestreo aleatorio

200.000

N/A

N/A

N/A

Número máximo de etiquetas

2 categorías: 2

Más de 3 categorías, numéricos, serie temporal: N/A

1 000

1 000

N/A

*Actualmente, los datos de los documentos solo se admiten en los Ready-to-use modelos que aceptan datos de documentos. No puede crear un modelo personalizado con datos de documentos.

Tenga en cuenta también las siguientes restricciones:

  • Al importar datos de un bucket de Amazon S3, asegúrese de que el nombre del bucket de Amazon S3 no contenga un.. Si el nombre de su bucket contiene un., es posible que se produzcan errores al intentar importar datos a Canvas.

  • Para los datos tabulares, Canvas no permite seleccionar ningún archivo con extensiones distintas de .csv, .parquet, .parq y .pqt tanto para la carga local como para la importación a Amazon S3. CSVlos archivos pueden usar cualquier delimitador común o personalizado, y no deben tener caracteres de nueva línea, excepto cuando indiquen una nueva fila.

  • Para los datos tabulares que utilizan archivos Parquet, tenga en cuenta lo siguiente:

    • Los archivos Parquet no pueden incluir tipos complejos, como mapas y listas.

    • Los nombres de columna de los archivos de Parquet no pueden contener espacios.

    • Si se utiliza compresión, los archivos de Parquet deben utilizar los tipos de compresión gzip o snappy. Para obtener más información sobre los tipos de compresión anteriores, consulte la documentación de gzip y la documentación de snappy.

  • En el caso de los datos de imágenes, si tiene imágenes sin etiquetar, debe etiquetarlas antes de crear el modelo. Para obtener información sobre cómo asignar etiquetas a las imágenes dentro de la aplicación de Canvas, consulte Edición de un conjunto de datos de imágenes.

  • Si configura actualizaciones automáticas de conjuntos de datos o configuraciones automáticas de predicción por lotes, solo podrá crear un total de 20 configuraciones en su aplicación de Canvas. Para obtener más información, consulte ¿Cómo gestionar las automatizaciones.

Después de importar un conjunto de datos, puede verlos en la página Conjuntos de datos en cualquier momento.

Importación de datos tabulares

Con los conjuntos de datos tabulares, puede crear modelos categóricos, numéricos, de previsión de series temporales y de predicción de texto. Revise la tabla de limitaciones de la sección anterior Importar un conjunto de datos para asegurarse de que sus datos cumplen los requisitos de los datos tabulares.

Utilice el siguiente procedimiento para importar un conjunto de datos tabulares a Canvas:

  1. Abra su aplicación SageMaker Canvas.

  2. En el panel de navegación de la izquierda, elija Conjuntos de datos.

  3. Elija Importar datos.

  4. En el menú desplegable, selecciona Tabular.

  5. En el cuadro de diálogo emergente, en el campo Nombre del conjunto de datos, introduzca un nombre para el conjunto de datos y elija Crear.

  6. En la página Crear conjunto de datos tabulares, abre el menú desplegable Fuente de datos.

  7. Elija el origen de datos:

    • Para cargar un archivo desde su equipo, elija Carga local.

    • Para importar datos de otro origen, como un bucket de Amazon S3 o una base de datos de Snowflake, busque el origen de datos en la barra Buscar origen de datos. A continuación, elija el mosaico del origen de datos que desee.

      nota

      Solo puede importar datos de los mosaicos que tengan una conexión activa. Si desea conectarse a un origen de datos que no tenga disponible, póngase en contacto con su administrador. Si es un administrador, consulte Conexión con orígenes de datos.

    En la siguiente captura de pantalla se muestra el menú desplegable Origen de datos.

    Captura de pantalla que muestra el menú desplegable de Origen de datos y la búsqueda de un origen de datos en la barra de búsqueda.
  8. (Opcional) Si se conecta a una base de datos de Amazon Redshift o Snowflake por primera vez, aparece un cuadro de diálogo para crear una conexión. Rellene el cuadro de diálogo con sus credenciales y seleccione Crear conexión. Si ya tiene una conexión, elija la que tenga.

  9. En el origen de datos, seleccione los archivos que quiera importar. Para cargar e importar archivos de forma local desde Amazon S3, puede seleccionar archivos. Solo para Amazon S3, también tiene la opción de introducir directamente el S3URI, el alias o el bucket o el punto ARN de acceso S3 en el campo Endpoint de entrada de S3 y, a continuación, elegir los archivos que desee importar. En el caso de las fuentes de bases de drag-and-drop datos, puede crear tablas de datos desde el panel de navegación izquierdo.

  10. (Opcional) Para las fuentes de datos tabulares que admiten SQL consultas (como Amazon Redshift, Amazon Athena o Snowflake), puede elegir Editar SQL en para realizar consultas antes de importarlas. SQL

    La siguiente captura de pantalla muestra la SQL vista de edición de una fuente de datos de Amazon Athena.

    Captura de pantalla que muestra una SQL consulta en la SQL vista de edición de datos de Amazon Athena.
  11. Elija Vista previa del conjunto de datos para obtener una vista previa de los datos antes de importarlos.

  12. En la configuración de importación, introduce un nombre de conjunto de datos o usa el nombre de conjunto de datos predeterminado.

  13. (Opcional) En el caso de los datos que importe desde Amazon S3, se le mostrará la configuración avanzada y podrá rellenar los siguientes campos:

    1. Active la opción Usar la primera fila como encabezado si quiere usar la primera fila del conjunto de datos como los nombres de las columnas. Si seleccionó varios archivos, esto se aplica a cada uno de ellos.

    2. Si va a importar un CSV archivo, en el menú desplegable Codificación de archivos (CSV), seleccione la codificación del archivo de conjunto de datos. UTF-8es la predeterminada.

    3. En el menú desplegable Delimitador, seleccione el delimitador que separa cada celda de los datos. El delimitador predeterminado es. , También puede especificar un delimitador personalizado.

    4. Seleccione Detección multilínea si desea que Canvas analice manualmente todo el conjunto de datos en busca de celdas multilínea. De forma predeterminada, esta opción no está seleccionada y Canvas determina si usar o no el soporte multilínea tomando una muestra de sus datos. Sin embargo, es posible que Canvas no detecte ninguna celda multilínea en la muestra. Si tiene celdas de varias líneas, le recomendamos que seleccione la opción de detección de varias líneas para obligar a Canvas a comprobar si hay celdas de varias líneas en todo el conjunto de datos.

  14. Cuando esté listo para importar sus datos, elija Crear conjunto de datos.

Mientras su conjunto de datos se importa a Canvas, puede ver sus conjuntos de datos enumerados en la página Conjuntos de datos. En esta página puede Visualización de detalles de su conjunto de datos.

Cuando el Estado de su conjunto de datos se muestre como Ready, Canvas habrá importado sus datos correctamente y podrá continuar con la creación de un modelo.

Si tiene una conexión a un origen de datos, como una base de datos de Amazon Redshift o un conector de SaaS, puede volver a esa conexión. Para Amazon Redshift y Snowflake, puede agregar otra conexión creando otro conjunto de datos, volviendo a la página Importar datos y eligiendo el mosaico de Origen de datos para esa conexión. En el menú desplegable, puede abrir la conexión anterior o elegir Agregar conexión.

nota

Para las plataformas de SaaS, solo puede tener una conexión por origen de datos.

Importación de datos de imágenes

Con los conjuntos de datos de imágenes, puede crear modelos personalizados de predicción de imágenes de una sola etiqueta, que predicen la etiqueta de una imagen. Revise la tabla de limitaciones de la sección anterior Importación de un conjunto de datos para asegurarse de que el conjunto de datos de imágenes cumpla con los requisitos de datos de imágenes.

nota

Solo puede importar conjuntos de datos de imágenes desde una carga de archivo local o un bucket de Amazon S3. Además, para los conjuntos de datos de imágenes, debe tener al menos 25 imágenes por etiqueta.

Utilice el siguiente procedimiento para importar un conjunto de datos de imágenes a Canvas:

  1. Abre tu aplicación SageMaker Canvas.

  2. En el panel de navegación de la izquierda, elija Conjuntos de datos.

  3. Elija Importar datos.

  4. En el menú desplegable, seleccione Imagen.

  5. En el cuadro de diálogo emergente, en el campo Nombre del conjunto de datos, introduzca un nombre para el conjunto de datos y elija Crear.

  6. En la página Importar, abra el menú desplegable Origen de datos.

  7. Elija el origen de datos. Para cargar un archivo desde su equipo, elija Carga local. Para importar archivos desde Amazon S3, elija Amazon S3.

  8. Desde su equipo o desde un bucket de Amazon S3, seleccione las imágenes o carpetas de imágenes que quiera cargar.

  9. Cuando esté listo para importar sus datos, elija Importar datos.

Mientras su conjunto de datos se importa a Canvas, puede ver sus conjuntos de datos enumerados en la página Conjuntos de datos. En esta página puede Visualización de detalles de su conjunto de datos.

Cuando el Estado de su conjunto de datos se muestre como Ready, Canvas habrá importado sus datos correctamente y podrá continuar con la creación de un modelo.

Al crear su modelo, puede editar su conjunto de datos de imágenes y puede asignar o reasignar etiquetas, agregar imágenes o eliminar imágenes de su conjunto de datos. Para obtener más información acerca de la edición de un conjunto de datos de imágenes, consulte Edición de un conjunto de datos de imágenes.

Importación de datos de documentos

Los Ready-to-use modelos para el análisis de gastos, el análisis de documentos de identidad, el análisis de documentos y las consultas de documentos respaldan los datos de los documentos. No puede crear un modelo personalizado con datos de documentos.

Con los conjuntos de datos de documentos, puede generar predicciones para los Ready-to-use modelos de análisis de gastos, análisis de documentos de identidad, análisis de documentos y consultas de documentos. Revise la tabla de limitaciones de la sección Creación de un conjunto de datos para asegurarse de que el conjunto de datos de documentos cumpla con los requisitos de datos de documentos.

nota

Solo puede importar conjuntos de datos de documentos desde una carga de archivo local o un bucket de Amazon S3.

Utilice el siguiente procedimiento para importar un conjunto de datos de documentos a Canvas:

  1. Abra su aplicación SageMaker Canvas.

  2. En el panel de navegación de la izquierda, elija Conjuntos de datos.

  3. Elija Importar datos.

  4. En el menú desplegable, elija Documento.

  5. En el cuadro de diálogo emergente, en el campo Nombre del conjunto de datos, introduzca un nombre para el conjunto de datos y elija Crear.

  6. En la página Importar, abra el menú desplegable Origen de datos.

  7. Elija el origen de datos. Para cargar un archivo desde su equipo, elija Carga local. Para importar archivos desde Amazon S3, elija Amazon S3.

  8. Desde su equipo o desde un bucket de Amazon S3, seleccione los archivos de documentos que desee cargar.

  9. Cuando esté listo para importar sus datos, elija Importar datos.

Mientras su conjunto de datos se importa a Canvas, puede ver sus conjuntos de datos enumerados en la página Conjuntos de datos. En esta página puede Visualización de detalles de su conjunto de datos.

Cuando el Estado de su conjunto de datos aparezca como Ready, eso querrá decir que Canvas ha importado sus datos correctamente.

En la página Conjuntos de datos, puede elegir su conjunto de datos para obtener una vista previa, que muestra los primeros 100 documentos de su conjunto de datos.

Visualización de detalles de su conjunto de datos

Para cada uno de sus conjuntos de datos, puede ver todos los archivos de un conjunto de datos, el historial de versiones del conjunto de datos y cualquier configuración de actualización automática del conjunto de datos. Desde la página Conjuntos de datos, también puede iniciar acciones como Actualización de un conjunto de datos o Cómo funcionan los modelos personalizados.

Para ver los detalles de un conjunto de datos, haga lo siguiente:

  1. Abra la aplicación SageMaker Canvas.

  2. En el panel de navegación de la izquierda, elija Conjuntos de datos.

  3. En la lista de conjuntos de datos, elija su conjunto de datos.

En la pestaña Datos, puede ver una vista previa de sus datos. Si elige Detalles del conjunto de datos, puede ver todos los archivos que forman parte de su conjunto de datos. Elija un archivo para ver solo los datos de ese archivo en la vista previa. En el caso de los conjuntos de datos de imágenes, la vista previa solo muestra las 100 primeras imágenes del conjunto de datos.

En la pestaña Historial de versiones, puede ver una lista de todas las versiones de su conjunto de datos. Cada vez que actualiza un conjunto de datos, se crea una nueva versión. Para obtener más información sobre la actualización de un conjunto de datos, consulte Actualización de un conjunto de datos. La siguiente captura de pantalla muestra la pestaña Historial de versiones de la aplicación de Canvas.

Captura de pantalla de la pestaña Historial de versiones de un conjunto de datos, con una lista de las versiones del conjunto de datos.

En la pestaña Actualizaciones automáticas, puede habilitar las actualizaciones automáticas para el conjunto de datos y establecer una configuración para actualizar su conjunto de datos de forma habitual. Para obtener más información sobre cómo configurar las actualizaciones automáticas para un conjunto de datos, consulte Configuración de las actualizaciones automáticas de un conjunto de datos. La siguiente captura de pantalla muestra la pestaña Actualizaciones automáticas con las actualizaciones automáticas activadas y una lista de los trabajos de actualización automática que se han realizado en el conjunto de datos.

La pestaña Actualizaciones automáticas del conjunto de datos muestra las actualizaciones automáticas activadas y una lista de los trabajos de actualización automática.