As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparação de dados em grande escala usando aplicativos Amazon EMR Serverless ou EMR clusters Amazon no Studio
O Amazon SageMaker Studio e sua versão antiga, o Studio Classic, fornecem aos cientistas de dados e engenheiros de aprendizado de máquina (ML) ferramentas para realizar análises e preparação de dados em grande escala. Analisar, transformar e preparar grandes quantidades de dados é uma etapa fundamental de qualquer fluxo de trabalho de ciência de dados e ML. Tanto o Studio quanto o Studio Classic vêm com integração integrada com a AmazonEMR, permitindo que os usuários gerenciem fluxos de trabalho interativos de preparação de dados e aprendizado de máquina em grande escala em seus JupyterLab notebooks.
EMRA Amazon é uma plataforma gerenciada de big data com recursos para ajudá-lo a executar trabalhos de processamento de dados distribuídos em escala de petabytes usando estruturas de análise de código aberto, AWS como Apache Spark, Apache
Você deve considerar os EMR clusters da Amazon para suas cargas de trabalho de preparação de dados se tiver requisitos de processamento de dados em grande escala, de longa duração ou complexos que envolvam grandes quantidades de dados, exijam ampla personalização e integração com outros serviços, precise executar aplicativos personalizados ou planeje executar uma variedade diversificada de estruturas de processamento de dados distribuídas além do Apache Spark.
Usando imagem SageMaker de distribuição 1.10
ou superior, você pode se conectar alternativamente a aplicativos interativos EMRsem servidor diretamente de seus JupyterLab notebooks no Studio. SageMaker A integração do Studio com o EMR Serverless permite que você execute estruturas de análise de big data de código aberto, como Apache Spark e Apache
Você deve considerar o EMR Serverless para suas cargas de trabalho interativas de preparação de dados se suas cargas de trabalho são de curta duração ou intermitentes e não exigem um cluster persistente; você prefere uma experiência sem servidor com provisionamento e encerramento automáticos de recursos, evitando a sobrecarga de gerenciar a infraestrutura; ou se suas tarefas interativas de preparação de dados giram principalmente em torno do Apache Spark.