Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon SageMaker Canvas admite la importación de datos tabulares, de imágenes y de documentos. Puede importar conjuntos de datos desde su máquina local, servicios de Amazon como Amazon S3 y Amazon Redshift, y orígenes de datos externos. Cuando importa conjuntos de datos desde Amazon S3, puede importar un conjunto de datos de cualquier tamaño. Utilice los conjuntos de datos que importe para crear modelos y hacer predicciones para otros conjuntos de datos.
Cada caso de uso para el que puede crear un modelo personalizado acepta diferentes tipos de entrada. Por ejemplo, si desea crear un modelo de clasificación de imágenes de una sola etiqueta, debe importar datos de imágenes. Para obtener más información acerca de los distintos tipos de modelo y los datos que aceptan, consulte Cómo funcionan los modelos personalizados. Puede importar datos y crear modelos personalizados en SageMaker Canvas para los siguientes tipos de datos:
-
Tabular (CSV, parquet o tablas)
Categóricos: utilice datos categóricos para crear modelos de predicción categórica personalizados para la predicción de más de 2 y 3 categorías.
Numéricos: utilice datos numéricos para crear modelos de predicción numérica personalizados.
Texto: utilice datos de texto para crear modelos personalizados de predicción de texto multicategoría.
Series temporales: utilice datos de series temporales para crear modelos de previsión de series temporales personalizados.
Imagen (JPGoPNG): utilice los datos de imagen para crear modelos personalizados de predicción de imágenes de etiqueta única.
Documento (PDF,, JPGPNG,TIFF): los datos del documento solo se admiten en los Ready-to-use modelos SageMaker Canvas. Para obtener más información sobre Ready-to-use los modelos que pueden realizar predicciones para los datos de los documentos, consulteReady-to-use modelos.
Puede importar datos a Canvas desde los siguientes orígenes de datos:
Archivos locales de su equipo
Buckets de Amazon S3
Amazon Redshift aprovisiona clústeres (no Amazon Redshift sin servidor)
AWS Glue Data Catalog a través de Amazon Athena
-
Amazon Aurora
-
Amazon Relational Database Service (AmazonRDS)
-
Salesforce Data Cloud
Snowflake
-
Databricks, SQLServer MariaDB y otras bases de datos populares a través de conectores JDBC
Más de 40 plataformas SaaS externas, como SAP OData
Para obtener una lista completa de los orígenes de datos desde los que puede importar, consulte la siguiente tabla:
Origen | Tipo | Tipos de datos compatibles |
---|---|---|
Carga de archivos locales |
Local |
Tabular, imagen, documento |
Amazon Aurora |
Interno de Amazon |
Tabular |
Bucket de Amazon S3 |
Interno de Amazon |
Tabular, imagen, documento |
Amazon RDS |
Interno de Amazon |
Tabular |
Amazon Redshift aprovisiona clústeres (no Redshift sin servidor) |
Interno de Amazon |
Tabular |
AWS Glue Data Catalog (a través de Amazon Athena) |
Interno de Amazon |
Tabular |
Externo |
Tabular |
|
Snowflake |
Externo |
Tabular |
Externo |
Tabular |
|
SQLServer |
Externo |
Tabular |
Mi SQL |
Externo |
Tabular |
Postgre SQL |
Externo |
Tabular |
MariaDB |
Externo |
Tabular |
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
|
Plataforma de SaaS externa |
Tabular |
Para obtener instrucciones sobre cómo importar datos e información sobre los requisitos de datos de entrada, como el tamaño máximo de archivo para las imágenes, consulte Creación de un conjunto de datos.
Canvas también proporciona varios conjuntos de datos de muestra en su aplicación para ayudarle a comenzar. Para obtener más información sobre los conjuntos de datos SageMaker de muestra proporcionados por la IA con los que puedes experimentar, consulta Usar conjuntos de datos de muestra.
Después de importar un conjunto de datos a Canvas, puede actualizarlo en cualquier momento. Puede realizar una actualización manual o configurar un cronograma para las actualizaciones automáticas del conjunto de datos. Para obtener más información, consulte Actualización de un conjunto de datos.
Para obtener más información específica para cada tipo de conjunto de datos, consulte las siguientes secciones:
Tabular
Para importar datos de un origen de datos externo (como una base de datos Snowflake o una plataforma SaaS), debe autenticarse y conectarse al origen de datos en la aplicación de Canvas. Para obtener más información, consulte Conexión con orígenes de datos.
Si desea importar conjuntos de datos de más de 5 GB de Amazon S3 a Canvas, puede lograr un muestreo más rápido utilizando Amazon Athena para consultar y muestrear los datos de Amazon S3.
Después de crear los conjuntos de datos en Canvas, puede preparar y transformar los datos mediante la funcionalidad de preparación de datos de Data Wrangler. Puede utilizar Data Wrangler para gestionar los valores que faltan, transformar sus características, unir varios conjuntos de datos en uno solo y mucho más. Para obtener más información, consulte Preparación de datos.
sugerencia
Siempre que los datos estén organizados en tablas, puede unir conjuntos de datos de diversas fuentes, como Amazon Redshift, Amazon Athena o Snowflake.
Imagen
Para obtener información sobre cómo editar un conjunto de datos de imágenes y realizar tareas como asignar o reasignar etiquetas, añadir o eliminar imágenes, consulte Edición de un conjunto de datos de imágenes.