Preparação de dados em grande escala usando aplicativos Amazon EMR Serverless ou EMR clusters Amazon no Studio - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparação de dados em grande escala usando aplicativos Amazon EMR Serverless ou EMR clusters Amazon no Studio

O Amazon SageMaker Studio e sua versão antiga, o Studio Classic, fornecem aos cientistas de dados e engenheiros de aprendizado de máquina (ML) ferramentas para realizar análises e preparação de dados em grande escala. Analisar, transformar e preparar grandes quantidades de dados é uma etapa fundamental de qualquer fluxo de trabalho de ciência de dados e ML. Tanto o Studio quanto o Studio Classic vêm com integração integrada com a AmazonEMR, permitindo que os usuários gerenciem fluxos de trabalho interativos de preparação de dados e aprendizado de máquina em grande escala em seus JupyterLab notebooks.

EMRA Amazon é uma plataforma gerenciada de big data com recursos para ajudá-lo a executar trabalhos de processamento de dados distribuídos em escala de petabytes usando estruturas de análise de código aberto, AWS como Apache Spark, ApacheHive, Presto e Flink, entre outras. HBase Com a integração do Studio e do Studio Classic com a AmazonEMR, você pode criar, navegar, descobrir e se conectar aos EMR clusters da Amazon sem sair do seu notebook JupyterLab ou do Studio Classic. Além disso, você pode monitorar e depurar suas cargas de trabalho do Spark acessando a interface do usuário do Spark diretamente do seu notebook com um clique.

Você deve considerar os EMR clusters da Amazon para suas cargas de trabalho de preparação de dados se tiver requisitos de processamento de dados em grande escala, de longa duração ou complexos que envolvam grandes quantidades de dados, exijam ampla personalização e integração com outros serviços, precise executar aplicativos personalizados ou planeje executar uma variedade diversificada de estruturas de processamento de dados distribuídas além do Apache Spark.

Usando imagem SageMaker de distribuição 1.10 ou superior, você pode se conectar alternativamente a aplicativos interativos EMRsem servidor diretamente de seus JupyterLab notebooks no Studio. SageMaker A integração do Studio com o EMR Serverless permite que você execute estruturas de análise de big data de código aberto, como Apache Spark e Apache Hive, sem configurar, gerenciar ou escalar clusters da Amazon. EMR EMRO Serverless provisiona e gerencia automaticamente os recursos de computação e memória subjacentes com base nas necessidades do seu aplicativo EMR Serverless. Ele aumenta e diminui os recursos dinamicamente, cobrando a quantidade de recursos de vCPU, memória e armazenamento consumidos por seus aplicativos. Essa abordagem sem servidor permite que você execute cargas de trabalho interativas de preparação de dados a partir de seus JupyterLab notebooks sem se preocupar com o gerenciamento de clusters, ao mesmo tempo em que obtém alta utilização da instância e eficiência de custos.

Você deve considerar o EMR Serverless para suas cargas de trabalho interativas de preparação de dados se suas cargas de trabalho são de curta duração ou intermitentes e não exigem um cluster persistente; você prefere uma experiência sem servidor com provisionamento e encerramento automáticos de recursos, evitando a sobrecarga de gerenciar a infraestrutura; ou se suas tarefas interativas de preparação de dados giram principalmente em torno do Apache Spark.