Importação de dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Importação de dados

O Amazon SageMaker Canvas oferece suporte à importação de dados tabulares, de imagens e documentos. Você pode importar conjuntos de dados da sua máquina local, de serviços da Amazon, como Amazon S3 e Amazon Redshift, e de fontes de dados externas. Ao importar conjuntos de dados do Amazon S3, você pode trazer um conjunto de dados de qualquer tamanho. Use os conjuntos de dados que você importa para criar modelos e fazer previsões para outros conjuntos de dados.

Cada caso de uso para o qual você pode criar um modelo personalizado aceita diferentes tipos de entrada. Por exemplo, se você quiser criar um modelo de classificação de imagem de rótulo único, deverá importar dados de imagem. Para obter mais informações sobre os diversos tipos diferentes de modelo e os dados que eles aceitam, consulte Como os modelos personalizados funcionam. Você pode importar dados e criar modelos personalizados no SageMaker Canvas para os seguintes tipos de dados:

  • Tabular (CSV, parquet ou mesas)

    • Categórico – Use dados categóricos para criar modelos personalizados de previsão categórica para previsão de 2 e 3 ou mais categorias.

    • Numérico – Use dados numéricos para criar modelos personalizados de previsão numérica.

    • Texto – Use dados de texto para criar modelos personalizados de previsão de texto em várias categorias.

    • Séries temporais – Use dados de séries temporais para criar modelos personalizados de previsão de séries temporais.

  • Imagem (JPGouPNG) — Use dados de imagem para criar modelos personalizados de previsão de imagem com rótulo único.

  • Documento (PDF,JPG,PNG,TIFF) — Os dados do documento são suportados somente para Ready-to-use modelos do SageMaker Canvas. Para saber mais sobre Ready-to-use modelos que podem fazer previsões para dados de documentos, consulteReady-to-use modelos.

Você pode importar dados para o Canvas a partir das seguintes fontes de dados:

  • Arquivos locais no seu computador

  • Buckets do Amazon S3

  • Clusters provisionados pelo Amazon Redshift (não Amazon Redshift Serverless)

  • AWS Glue Data Catalog por meio da Amazon Athena

  • Amazon Aurora

  • Amazon Relational Database Service (AmazonRDS)

  • Salesforce Data Cloud

  • Snowflake

  • Databricks, SQLServer MariaDB e outros bancos de dados populares por meio de conectores JDBC

  • Mais de 40 plataformas SaaS externas, como SAP OData

Para obter uma lista completa das fontes de dados das quais você pode importar, consulte a tabela a seguir:

Origem Tipo Tipos de dados compatíveis

Upload de arquivos locais

Local

Tabular, Imagem, Documento

Amazon Aurora

Internos da Amazon

Tabular

Bucket do Amazon S3

Internos da Amazon

Tabular, Imagem, Documento

Amazon RDS

Internos da Amazon

Tabular

Clusters provisionados pelo Amazon Redshift (não Redshift Serverless)

Internos da Amazon

Tabular

AWS Glue Data Catalog (por meio da Amazon Athena)

Internos da Amazon

Tabular

Databricks

Externo

Tabular

Snowflake

Externo

Tabular

Salesforce Data Cloud

Externo

Tabular

SQLServer

Externo

Tabular

Meu SQL

Externo

Tabular

Postger SQL

Externo

Tabular

MariaDB

Externo

Tabular

Amplitude

Plataforma SaaS externa

Tabular

CircleCI

Plataforma SaaS externa

Tabular

DocuSign Monitorar

Plataforma SaaS externa

Tabular

Domo

Plataforma SaaS externa

Tabular

Datadog

Plataforma SaaS externa

Tabular

Dynatrace

Plataforma SaaS externa

Tabular

Facebook Ads

Plataforma SaaS externa

Tabular

Facebook Page Insights

Plataforma SaaS externa

Tabular

Google Ads

Plataforma SaaS externa

Tabular

Google Analytics 4

Plataforma SaaS externa

Tabular

Google Search Console

Plataforma SaaS externa

Tabular

GitHub

Plataforma SaaS externa

Tabular

GitLab

Plataforma SaaS externa

Tabular

Infor Nexus

Plataforma SaaS externa

Tabular

Instagram Ads

Plataforma SaaS externa

Tabular

Jira Cloud

Plataforma SaaS externa

Tabular

LinkedIn Anúncios

Plataforma SaaS externa

Tabular

LinkedIn Anúncios

Plataforma SaaS externa

Tabular

Mailchimp

Plataforma SaaS externa

Tabular

Marketo

Plataforma SaaS externa

Tabular

Microsoft Teams

Plataforma SaaS externa

Tabular

Mixpanel

Plataforma SaaS externa

Tabular

Okta

Plataforma SaaS externa

Tabular

Salesforce

Plataforma SaaS externa

Tabular

Salesforce Marketing Cloud

Plataforma SaaS externa

Tabular

Salesforce Pardot

Plataforma SaaS externa

Tabular

SAP OData

Plataforma SaaS externa

Tabular

SendGrid

Plataforma SaaS externa

Tabular

ServiceNow

Plataforma SaaS externa

Tabular

Singular

Plataforma SaaS externa

Tabular

Slack

Plataforma SaaS externa

Tabular

Stripe

Plataforma SaaS externa

Tabular

Trend Micro

Plataforma SaaS externa

Tabular

Typeform

Plataforma SaaS externa

Tabular

Veeva

Plataforma SaaS externa

Tabular

Zendesk

Plataforma SaaS externa

Tabular

Zendesk Chat

Plataforma SaaS externa

Tabular

Zendesk Sell

Plataforma SaaS externa

Tabular

Zendesk Sunshine

Plataforma SaaS externa

Tabular

Zoom Meetings

Plataforma SaaS externa

Tabular

Para obter instruções sobre como importar dados e informações sobre os requisitos de dados de entrada, como o tamanho máximo do arquivo para imagens, consulte Criar um conjunto de dados.

O Canvas também fornece vários conjuntos de dados de amostra em seu aplicativo para ajudá-lo a começar. Para saber mais sobre os conjuntos de dados SageMaker de amostra fornecidos com os quais você pode experimentar, consulte Usar conjuntos de dados de amostra.

Depois de importar um conjunto de dados para o Canvas, você pode atualizar o conjunto de dados a qualquer momento. Você pode fazer uma atualização manual ou configurar um cronograma para atualizações automáticas do conjunto de dados. Para obter mais informações, consulte Atualizar um conjunto de dados.

Para obter mais informações específicas para cada tipo de conjunto de dados, consulte as seguintes seções:

Tabular

Para importar dados de uma fonte de dados externa (como um banco de dados Snowflake ou uma plataforma SaaS), você deve se autenticar e se conectar à fonte de dados no aplicativo Canvas. Para obter mais informações, consulte Conectar-se à fonte de dados.

Se você quiser importar conjuntos de dados maiores que 5 GB do Amazon S3 para o Canvas, você pode obter uma amostragem mais rápida usando o Amazon Athena para consultar e amostrar os dados do Amazon S3.

Depois de criar conjuntos de dados no Canvas, você pode preparar e transformar seus dados usando a funcionalidade de preparação de dados do Data Wrangler. Você pode usar o Data Wrangler para lidar com valores ausentes, transformar seus recursos, unir vários conjuntos de dados em um único conjunto de dados e muito mais. Para obter mais informações, consulte Preparação de dados.

dica

Desde que seus dados estejam organizados em tabelas, você pode unir conjuntos de dados de várias fontes, como Amazon Redshift, Amazon Athena ou Snowflake.

Imagem

Para obter informações sobre como editar um conjunto de dados de imagem e realizar tarefas como atribuir ou reatribuir rótulos, adicionar imagens ou excluir imagens, consulte Editar um conjunto de dados de imagem.