As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Importação de dados
O Amazon SageMaker Canvas oferece suporte à importação de dados tabulares, de imagens e documentos. Você pode importar conjuntos de dados da sua máquina local, de serviços da Amazon, como Amazon S3 e Amazon Redshift, e de fontes de dados externas. Ao importar conjuntos de dados do Amazon S3, você pode trazer um conjunto de dados de qualquer tamanho. Use os conjuntos de dados que você importa para criar modelos e fazer previsões para outros conjuntos de dados.
Cada caso de uso para o qual você pode criar um modelo personalizado aceita diferentes tipos de entrada. Por exemplo, se você quiser criar um modelo de classificação de imagem de rótulo único, deverá importar dados de imagem. Para obter mais informações sobre os diversos tipos diferentes de modelo e os dados que eles aceitam, consulte Como os modelos personalizados funcionam. Você pode importar dados e criar modelos personalizados no SageMaker Canvas para os seguintes tipos de dados:
-
Tabular (CSV, parquet ou mesas)
Categórico – Use dados categóricos para criar modelos personalizados de previsão categórica para previsão de 2 e 3 ou mais categorias.
Numérico – Use dados numéricos para criar modelos personalizados de previsão numérica.
Texto – Use dados de texto para criar modelos personalizados de previsão de texto em várias categorias.
Séries temporais – Use dados de séries temporais para criar modelos personalizados de previsão de séries temporais.
Imagem (JPGouPNG) — Use dados de imagem para criar modelos personalizados de previsão de imagem com rótulo único.
Documento (PDF,JPG,PNG,TIFF) — Os dados do documento são suportados somente para Ready-to-use modelos do SageMaker Canvas. Para saber mais sobre Ready-to-use modelos que podem fazer previsões para dados de documentos, consulteReady-to-use modelos.
Você pode importar dados para o Canvas a partir das seguintes fontes de dados:
Arquivos locais no seu computador
Buckets do Amazon S3
Clusters provisionados pelo Amazon Redshift (não Amazon Redshift Serverless)
AWS Glue Data Catalog por meio da Amazon Athena
-
Amazon Aurora
-
Amazon Relational Database Service (AmazonRDS)
-
Salesforce Data Cloud
Snowflake
-
Databricks, SQLServer MariaDB e outros bancos de dados populares por meio de conectores JDBC
Mais de 40 plataformas SaaS externas, como SAP OData
Para obter uma lista completa das fontes de dados das quais você pode importar, consulte a tabela a seguir:
Origem | Tipo | Tipos de dados compatíveis |
---|---|---|
Upload de arquivos locais |
Local |
Tabular, Imagem, Documento |
Amazon Aurora |
Internos da Amazon |
Tabular |
Bucket do Amazon S3 |
Internos da Amazon |
Tabular, Imagem, Documento |
Amazon RDS |
Internos da Amazon |
Tabular |
Clusters provisionados pelo Amazon Redshift (não Redshift Serverless) |
Internos da Amazon |
Tabular |
AWS Glue Data Catalog (por meio da Amazon Athena) |
Internos da Amazon |
Tabular |
Externo |
Tabular |
|
Snowflake |
Externo |
Tabular |
Externo |
Tabular |
|
SQLServer |
Externo |
Tabular |
Meu SQL |
Externo |
Tabular |
Postger SQL |
Externo |
Tabular |
MariaDB |
Externo |
Tabular |
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
|
Plataforma SaaS externa |
Tabular |
Para obter instruções sobre como importar dados e informações sobre os requisitos de dados de entrada, como o tamanho máximo do arquivo para imagens, consulte Criar um conjunto de dados.
O Canvas também fornece vários conjuntos de dados de amostra em seu aplicativo para ajudá-lo a começar. Para saber mais sobre os conjuntos de dados SageMaker de amostra fornecidos com os quais você pode experimentar, consulte Usar conjuntos de dados de amostra.
Depois de importar um conjunto de dados para o Canvas, você pode atualizar o conjunto de dados a qualquer momento. Você pode fazer uma atualização manual ou configurar um cronograma para atualizações automáticas do conjunto de dados. Para obter mais informações, consulte Atualizar um conjunto de dados.
Para obter mais informações específicas para cada tipo de conjunto de dados, consulte as seguintes seções:
Tabular
Para importar dados de uma fonte de dados externa (como um banco de dados Snowflake ou uma plataforma SaaS), você deve se autenticar e se conectar à fonte de dados no aplicativo Canvas. Para obter mais informações, consulte Conectar-se à fonte de dados.
Se você quiser importar conjuntos de dados maiores que 5 GB do Amazon S3 para o Canvas, você pode obter uma amostragem mais rápida usando o Amazon Athena para consultar e amostrar os dados do Amazon S3.
Depois de criar conjuntos de dados no Canvas, você pode preparar e transformar seus dados usando a funcionalidade de preparação de dados do Data Wrangler. Você pode usar o Data Wrangler para lidar com valores ausentes, transformar seus recursos, unir vários conjuntos de dados em um único conjunto de dados e muito mais. Para obter mais informações, consulte Preparação de dados.
dica
Desde que seus dados estejam organizados em tabelas, você pode unir conjuntos de dados de várias fontes, como Amazon Redshift, Amazon Athena ou Snowflake.
Imagem
Para obter informações sobre como editar um conjunto de dados de imagem e realizar tarefas como atribuir ou reatribuir rótulos, adicionar imagens ou excluir imagens, consulte Editar um conjunto de dados de imagem.