As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
A preparação de dados em machine learning se refere ao processo de coleta, pré-processamento e organização de dados brutos para torná-los adequados para análise e modelagem. Essa etapa garante que os dados estejam em um formato a partir do qual os algoritmos de machine learning possam aprender com eficácia. As tarefas de preparação de dados podem incluir processar valores ausentes, remover valores discrepantes, escalar atributos, codificar variáveis categóricas, avaliar possíveis vieses e tomar medidas para mitigá-los, dividindo dados em conjuntos de treinamento e teste, rotulando e outras transformações necessárias para otimizar a qualidade e a usabilidade dos dados para tarefas subsequentes de machine learning.
Escolha um atributo
Há três casos de uso principais para preparação de dados com a Amazon SageMaker AI. Escolha o caso de uso que se alinha com seus requisitos e, em seguida, consulte o atributo recomendado correspondente.
Casos de uso
A seguir estão os principais casos de uso ao realizar a preparação de dados para Machine Learning.
-
Caso de uso 1: Para aqueles que preferem uma interface visual, a SageMaker IA fornece maneiras de explorar, preparar e criar recursos para o treinamento de modelos por meio de um point-and-click ambiente.
-
Caso de uso 2: Para usuários familiarizados com a codificação que desejam mais flexibilidade e controle sobre a preparação de dados, a SageMaker IA integra ferramentas em seus ambientes de codificação para exploração, transformações e engenharia de recursos.
-
Caso de uso 3: Para usuários focados na preparação escalável de dados, a SageMaker IA oferece recursos sem servidor que aproveitam o ecossistema Hadoop/Spark para processamento distribuído de big data.
Recursos recomendados
A tabela a seguir descreve as principais considerações e compensações dos recursos de SageMaker IA relacionados a cada caso de uso de preparação de dados para aprendizado de máquina. Para começar, identifique o caso de uso que se alinha aos seus requisitos e navegue até o recurso de SageMaker IA recomendado.
Descritor | Caso de uso 1 | Caso de uso 2 | Caso de uso 3 |
---|---|---|---|
SageMaker Recurso de IA | Data Wrangler no Amazon Canvas SageMaker | Preparação de dados com SQL no Studio | Aplicações Preparar dados usando o EMR Sem Servidor no Studio |
Descrição | SageMaker O Canvas é um ambiente visual de baixo código para criar, treinar e implantar modelos de aprendizado de máquina em SageMaker IA. Sua ferramenta integrada Data Wrangler permite aos usuários combinar, transformar e limpar conjuntos de dados por meio de interações. point-and-click | A extensão SQL no Studio permite que os usuários se conectem ao Amazon Redshift, Snowflake, Athena e Amazon S3 para criar consultas SQL ad-hoc e visualizar resultados em notebooks. JupyterLab A saída dessas consultas pode ser manipulada usando Python and Pandas para processamento, visualização e transformação adicionais em formatos utilizáveis para o desenvolvimento de modelos de aprendizado de máquina. | A integração entre o EMR Serverless e o SageMaker Amazon Studio fornece um ambiente escalável sem servidor para preparação de dados em grande escala para aprendizado de máquina usando estruturas de código aberto, como Apache Spark e Apache Hive. Os usuários podem acessar as aplicações e dados do EMR Sem Servidor diretamente de seus cadernos do Studio para realizar tarefas de preparação de dados em grande escala. |
Otimizado para | Usando uma interface visual na qual você pode: Otimizado para tarefas de dados tabulares, como processar valores ausentes, codificar variáveis categóricas e aplicar transformações de dados. |
Para usuários cujos dados residem no Amazon Redshift, Snowflake, Athena ou Amazon S3 e desejam combinar SQL exploratório e Python para análise e preparação de dados sem a necessidade de aprender Spark. | Para usuários que preferem uma experiência sem servidor com provisionamento e encerramento automáticos de recursos para escalar cargas de trabalho interativas interativas de curta duração ou intermitentes que giram em torno do Apache Spark e, ao mesmo tempo, aproveitam os recursos de aprendizado de máquina da IA. SageMaker |
Considerações |
|
|
|
Ambiente recomendado | Começando a usar o SageMaker Canvas | Executar o Studio | Executar o Studio |
Opções adicionais
SageMaker A IA oferece as seguintes opções adicionais para preparar seus dados para uso em modelos de aprendizado de máquina.
-
Preparação de dados usando o Amazon EMR: Para tarefas de processamento de dados de longa duração, intensivas em computação e em grande escala, considere usar clusters do Amazon EMR do Studio. SageMaker Os clusters do Amazon EMR são projetados para lidar com paralelização massiva e podem ser escalados para centenas ou milhares de nós, o que os torna adequados para workloads de big data que exigem estruturas como Apache Spark, Hadoop, Hive e Presto. A integração do Amazon EMR com o SageMaker Studio permite que você aproveite a escalabilidade e o desempenho do Amazon EMR, mantendo a experimentação completa de ML, o treinamento e a implantação de modelos centralizados e gerenciados no ambiente do Studio. SageMaker
-
Prepare dados usando sessões interativas Glue: você pode usar o mecanismo sem servidor baseado no Apache Spark a partir de sessões AWS Glue interativas para agregar, transformar e preparar dados de várias fontes no Studio. SageMaker
-
Identifique o viés nos dados de treinamento usando as tarefas de processamento do Amazon SageMaker SageMaker Clarify: o Clarify analisa seus dados e detecta possíveis vieses em várias facetas. Por exemplo, você pode usar a API Clarify no Studio para detectar se seus dados de treinamento contêm representações desequilibradas ou tendências de rotulagem entre grupos, como gênero, raça ou idade. A Clarify pode ajudá-lo a identificar esses preconceitos antes de treinar um modelo para evitar a propagação de preconceitos nas predição do modelo.
-
Crie, armazene e compartilhe recursos: a Amazon SageMaker Feature Store otimiza a descoberta e a reutilização de recursos selecionados para aprendizado de máquina. Ele fornece um repositório centralizado para armazenar dados de atributos que podem ser pesquisados e recuperados para treinamento de modelos. Armazenar atributos em um formato padronizado permite a reutilização em projetos de ML. O Feature Store gerencia todo o ciclo de vida dos atributos, incluindo rastreamento de linhagem, estatísticas e trilhas de auditoria para engenharia de atributos de machine learning escalável e governada.
-
Rotule os dados com um human-in-the-loop: Você pode usar o SageMaker Ground Truth para gerenciar os fluxos de trabalho de rotulagem de dados de seus conjuntos de dados de treinamento.
-
Use a API SageMaker de processamento: depois de realizar a análise exploratória de dados e criar suas etapas de transformação de dados, você pode produzir seu código de transformação usando trabalhos de processamento de SageMaker IA e automatizar seu fluxo de trabalho de preparação usando pipelines de construção de modelos. SageMaker