Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Recomendações para escolher a ferramenta certa de preparação de dados em SageMaker IA

Modo de foco
Recomendações para escolher a ferramenta certa de preparação de dados em SageMaker IA - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

A preparação de dados em machine learning se refere ao processo de coleta, pré-processamento e organização de dados brutos para torná-los adequados para análise e modelagem. Essa etapa garante que os dados estejam em um formato a partir do qual os algoritmos de machine learning possam aprender com eficácia. As tarefas de preparação de dados podem incluir processar valores ausentes, remover valores discrepantes, escalar atributos, codificar variáveis categóricas, avaliar possíveis vieses e tomar medidas para mitigá-los, dividindo dados em conjuntos de treinamento e teste, rotulando e outras transformações necessárias para otimizar a qualidade e a usabilidade dos dados para tarefas subsequentes de machine learning.

Escolha um atributo

Há três casos de uso principais para preparação de dados com a Amazon SageMaker AI. Escolha o caso de uso que se alinha com seus requisitos e, em seguida, consulte o atributo recomendado correspondente.

Casos de uso

A seguir estão os principais casos de uso ao realizar a preparação de dados para Machine Learning.

  • Caso de uso 1: Para aqueles que preferem uma interface visual, a SageMaker IA fornece maneiras de explorar, preparar e criar recursos para o treinamento de modelos por meio de um point-and-click ambiente.

  • Caso de uso 2: Para usuários familiarizados com a codificação que desejam mais flexibilidade e controle sobre a preparação de dados, a SageMaker IA integra ferramentas em seus ambientes de codificação para exploração, transformações e engenharia de recursos.

  • Caso de uso 3: Para usuários focados na preparação escalável de dados, a SageMaker IA oferece recursos sem servidor que aproveitam o ecossistema Hadoop/Spark para processamento distribuído de big data.

A tabela a seguir descreve as principais considerações e compensações dos recursos de SageMaker IA relacionados a cada caso de uso de preparação de dados para aprendizado de máquina. Para começar, identifique o caso de uso que se alinha aos seus requisitos e navegue até o recurso de SageMaker IA recomendado.

Descritor Caso de uso 1 Caso de uso 2 Caso de uso 3
SageMaker Recurso de IA Data Wrangler no Amazon Canvas SageMaker Preparação de dados com SQL no Studio Aplicações Preparar dados usando o EMR Sem Servidor no Studio
Descrição SageMaker O Canvas é um ambiente visual de baixo código para criar, treinar e implantar modelos de aprendizado de máquina em SageMaker IA. Sua ferramenta integrada Data Wrangler permite aos usuários combinar, transformar e limpar conjuntos de dados por meio de interações. point-and-click A extensão SQL no Studio permite que os usuários se conectem ao Amazon Redshift, Snowflake, Athena e Amazon S3 para criar consultas SQL ad-hoc e visualizar resultados em notebooks. JupyterLab A saída dessas consultas pode ser manipulada usando Python and Pandas para processamento, visualização e transformação adicionais em formatos utilizáveis para o desenvolvimento de modelos de aprendizado de máquina. A integração entre o EMR Serverless e o SageMaker Amazon Studio fornece um ambiente escalável sem servidor para preparação de dados em grande escala para aprendizado de máquina usando estruturas de código aberto, como Apache Spark e Apache Hive. Os usuários podem acessar as aplicações e dados do EMR Sem Servidor diretamente de seus cadernos do Studio para realizar tarefas de preparação de dados em grande escala.
Otimizado para Usando uma interface visual na qual você pode:

Otimizado para tarefas de dados tabulares, como processar valores ausentes, codificar variáveis categóricas e aplicar transformações de dados.

Para usuários cujos dados residem no Amazon Redshift, Snowflake, Athena ou Amazon S3 e desejam combinar SQL exploratório e Python para análise e preparação de dados sem a necessidade de aprender Spark. Para usuários que preferem uma experiência sem servidor com provisionamento e encerramento automáticos de recursos para escalar cargas de trabalho interativas interativas de curta duração ou intermitentes que giram em torno do Apache Spark e, ao mesmo tempo, aproveitam os recursos de aprendizado de máquina da IA. SageMaker
Considerações
  • Pode não ser a melhor escolha se sua equipe já tem experiência em Python, Spark ou outras linguagens.

  • Talvez não seja o mais adequado se você precisar de flexibilidade total para personalizar as transformações para adicionar uma lógica comercial complexa ou exigir controle total sobre seu ambiente de processamento de dados.

  • Esse atributo foi projetado somente para residência de dados estruturados no Amazon Redshift, Snowflake, Athena ou Amazon S3.

  • Se o tamanho dos resultados da consulta exceder a memória da instância de SageMaker IA, o caderno a seguir pode orientá-lo sobre como começar a usar o Athena para preparar seus dados para ingestão por um SageMaker algoritmo de IA.

  • A curva de aprendizado para usuários que não estão familiarizados com as aplicações do EMR Sem Servidor e as ferramentas baseadas no Spark pode ser desafiadora.

  • Esse recurso é mais adequado para tarefas de preparação de dados interativos e pode não ser tão eficiente quanto os clusters do Amazon EMR para requisitos de processamento de dados complexos, em grande escala ou de longa duração que envolvam grandes quantidades de dados, ampla integração com outros serviços, aplicações personalizadas ou diversos frameworks de processamento de dados distribuídas, além do Apache Spark.

  • Embora a computação com a tecnologia sem servidor possa ser econômica para tarefas de curta duração, é essencial monitorar e gerenciar os custos com cuidado, especialmente para workloads de longa duração ou que consomem muitos recursos.

Ambiente recomendado Começando a usar o SageMaker Canvas Executar o Studio Executar o Studio

Opções adicionais

SageMaker A IA oferece as seguintes opções adicionais para preparar seus dados para uso em modelos de aprendizado de máquina.

Nesta página

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.