As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Cargas de trabalho de transformação de dados com processamento SageMaker
SageMaker O processamento se refere às capacidades SageMaker de executar tarefas de pré e pós-processamento de dados, engenharia de recursos e avaliação de modelos na infraestrutura totalmente gerenciada SageMaker da. Essas tarefas são executadas como trabalhos de processamento. A seguir, são apresentadas informações e recursos para aprender sobre o SageMaker processamento.
Usando o SageMaker ProcessingAPI, os cientistas de dados podem executar scripts e cadernos para processar, transformar e analisar conjuntos de dados a fim de prepará-los para o aprendizado de máquina. Quando combinado com outras tarefas críticas de aprendizado de máquina fornecidas por SageMaker, como treinamento e hospedagem, o Processing oferece os benefícios de um ambiente de aprendizado de máquina totalmente gerenciado, incluindo todo o suporte de segurança e conformidade incorporado SageMaker. Você tem a flexibilidade de usar os contêineres de processamento de dados integrados ou de trazer seus próprios contêineres para uma lógica de processamento personalizada e, em seguida, enviar trabalhos para execução na infraestrutura SageMaker gerenciada.
nota
Você pode criar uma tarefa de processamento programaticamente chamando a CreateProcessingJobAPIação em qualquer linguagem suportada por SageMaker ou usando o. AWS CLI Para obter informações sobre como essa API ação se traduz em uma função no idioma de sua escolha, consulte a seção Consulte também CreateProcessingJob e escolha umaSDK. Como exemplo, para usuários de Python, consulte a seção Amazon SageMaker Processing
O diagrama a seguir mostra como a SageMaker Amazon executa um trabalho de processamento. A Amazon SageMaker pega seu script, copia seus dados do Amazon Simple Storage Service (Amazon S3) e, em seguida, extrai um contêiner de processamento. A infraestrutura subjacente para um trabalho de processamento é totalmente gerenciada pela Amazon SageMaker. Depois de enviar um trabalho de processamento, SageMaker inicia as instâncias de computação, processa e analisa os dados de entrada e libera os recursos após a conclusão. A saída do trabalho de processamento é armazenada no bucket do Amazon S3 que você especificar.
nota
Seus dados de entrada devem ser armazenados em um bucket do Amazon S3. Se preferir, você também pode usar Amazon Athena ou Amazon Redshift.
dica
Para conhecer as melhores práticas para computação distribuída de trabalhos de treinamento e processamento de machine learning (ML) em geral, consulte Computação distribuída com SageMaker as melhores práticas.
Use cadernos SageMaker de amostra de processamento da Amazon
Fornecemos dois exemplos de blocos de anotações Jupyter que mostram como realizar o pré-processamento de dados, a avaliação de modelos ou ambos.
Para ver um exemplo de caderno que mostra como executar scripts scikit-learn para realizar pré-processamento de dados e treinamento e avaliação de modelos com o SageMaker Python SDK for Processing, consulte scikit-learn Processing.
Para ver um exemplo de caderno que mostra como usar o Amazon SageMaker Processing para realizar o pré-processamento distribuído de dados com o Spark, consulte Processamento distribuído (Spark
Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar essas amostras SageMaker, consulte. Instâncias do Amazon SageMaker Notebook Depois de criar uma instância do notebook e abri-la, escolha a guia SageMaker Exemplos para ver uma lista de todas as SageMaker amostras. Para abrir um caderno, escolha sua guia Use (Uso) e depois escolha Create copy (Criar cópia).
Monitore trabalhos SageMaker de processamento da Amazon com CloudWatch registros e métricas
O Amazon SageMaker Processing fornece CloudWatch registros e métricas da Amazon para monitorar trabalhos de processamento. CloudWatch fornece métricas de memória CPUGPU, GPU memória e disco e registro de eventos. Para ter mais informações, consulte Métricas para monitorar a Amazon SageMaker com a Amazon CloudWatch e Grupos de registros e streams que a Amazon SageMaker envia para o Amazon CloudWatch Logs.