As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Cargas de trabalho de transformação de dados com processamento SageMaker
SageMaker O processamento se refere aos recursos da SageMaker IA para executar tarefas de pré e pós-processamento de dados, engenharia de recursos e avaliação de modelos na infraestrutura totalmente gerenciada da SageMaker IA. Essas tarefas são executadas como trabalhos de processamento. A seguir, são apresentadas informações e recursos para aprender sobre o SageMaker processamento.
Usando a API SageMaker de processamento, os cientistas de dados podem executar scripts e notebooks para processar, transformar e analisar conjuntos de dados a fim de prepará-los para o aprendizado de máquina. Quando combinado com outras tarefas críticas de aprendizado de máquina fornecidas pela SageMaker IA, como treinamento e hospedagem, o Processing oferece os benefícios de um ambiente de aprendizado de máquina totalmente gerenciado, incluindo todo o suporte de segurança e conformidade incorporado à SageMaker IA. Você tem a flexibilidade de usar os contêineres de processamento de dados integrados ou de trazer seus próprios contêineres para uma lógica de processamento personalizada e, em seguida, enviar trabalhos para execução na infraestrutura gerenciada por SageMaker IA.
nota
Você pode criar um trabalho de processamento programaticamente chamando a ação da CreateProcessingJobAPI em qualquer linguagem suportada pela SageMaker IA ou usando o. AWS CLI Para obter informações sobre como essa ação da API se traduz em uma função no idioma de sua escolha, consulte a seção Consulte também CreateProcessingJob e escolha um SDK. Como exemplo, para usuários de Python, consulte a seção Amazon SageMaker Processing
O diagrama a seguir mostra como a Amazon SageMaker AI executa uma tarefa de processamento. O Amazon SageMaker AI pega seu script, copia seus dados do Amazon Simple Storage Service (Amazon S3) e, em seguida, extrai um contêiner de processamento. A infraestrutura subjacente para um trabalho de processamento é totalmente gerenciada pela Amazon SageMaker AI. Depois de enviar um trabalho de processamento, a SageMaker IA inicia as instâncias de computação, processa e analisa os dados de entrada e libera os recursos após a conclusão. A saída do trabalho de processamento é armazenada no bucket do Amazon S3 que você especificar.
nota
Seus dados de entrada devem ser armazenados em um bucket do Amazon S3. Se preferir, você também pode usar Amazon Athena ou Amazon Redshift.

dica
Para conhecer as melhores práticas para computação distribuída em treinamento e processamento de trabalhos de machine learning (ML) em geral, consulte Computação distribuída com as melhores práticas de SageMaker IA.
Use cadernos SageMaker de amostra de processamento da Amazon
Fornecemos dois exemplos de cadernos Jupyter que mostram como realizar o pré-processamento de dados, a avaliação de modelos ou ambos.
Para ver um exemplo de caderno que mostra como executar scripts do scikit-learn para realizar o pré-processamento de dados e o treinamento e a avaliação de modelos com o SDK do SageMaker Python para processamento, consulte scikit-learn Processing.
Para ver um exemplo de caderno que mostra como usar o Amazon SageMaker Processing para realizar o pré-processamento distribuído de dados com o Spark, consulte Processamento distribuído (Spark
Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar essas amostras na SageMaker IA, consulte. Instâncias do Amazon SageMaker Notebook Depois de criar uma instância do notebook e abri-la, escolha a guia Exemplos de SageMaker IA para ver uma lista de todas as amostras de SageMaker IA. Para abrir um caderno, escolha a guia Uso e depois escolha Criar cópia.
Monitore trabalhos SageMaker de processamento da Amazon com CloudWatch registros e métricas
O Amazon SageMaker Processing fornece CloudWatch registros e métricas da Amazon para monitorar trabalhos de processamento. CloudWatch fornece CPU, GPU, memória, memória de GPU, métricas de disco e registro de eventos. Para ter mais informações, consulte Métricas para monitorar a Amazon SageMaker AI com a Amazon CloudWatch e Grupos de registros e streams que o Amazon SageMaker AI envia para o Amazon CloudWatch Logs.