Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Preparação de dados em grande escala usando aplicaçãos do Amazon EMR Sem Servidor ou clusters do Amazon EMR no Studio

Modo de foco
Preparação de dados em grande escala usando aplicaçãos do Amazon EMR Sem Servidor ou clusters do Amazon EMR no Studio - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O Amazon SageMaker Studio e sua versão antiga, o Studio Classic, fornecem aos cientistas de dados e engenheiros de aprendizado de máquina (ML) ferramentas para realizar análises e preparação de dados em grande escala. Analisar, transformar e preparar grandes quantidades de dados é uma etapa fundamental de qualquer fluxo de trabalho de ciência de dados e ML. Tanto o Studio quanto o Studio Classic vêm com integração integrada com o Amazon EMR, permitindo que os usuários gerenciem fluxos de trabalho interativos de preparação de dados e aprendizado de máquina em grande escala em seus notebooks. JupyterLab

O Amazon EMR é uma plataforma gerenciada de big data com recursos para ajudá-lo a executar trabalhos de processamento de dados distribuídos em escala de petabytes usando estruturas de análise de código aberto, AWS como Apache Spark, Apache Hive, Presto e Flink, entre outras. HBase Com a integração do Studio e do Studio Classic com o Amazon EMR, você pode criar, navegar, descobrir e se conectar aos clusters do Amazon EMR sem sair do seu notebook JupyterLab ou do Studio Classic. Você também pode monitorar e depurar suas workloads do Spark acessando a interface de usuário do Spark com um clique, diretamente de seu caderno.

Você deve considerar os clusters do Amazon EMR para suas workloads de preparação de dados se tiver requisitos de processamento de dados em grande escala, de longa duração ou complexos que envolvam grandes quantidades de dados, exijam ampla personalização e integração com outros serviços, precise executar aplicações personalizados ou planeje executar uma variedade diversificada de estruturas de processamento de dados distribuídas além do Apache Spark.

Usando imagem SageMaker de distribuição 1.10 ou superior, você pode se conectar alternativamente a aplicativos EMR Serverless interativos diretamente de seus JupyterLab notebooks no AI Studio. SageMaker A integração do Studio com o EMR Sem Servidor permite que você execute frameworks de big data analytics de código aberto, como Apache Spark e Apache Hive, sem configurar, gerenciar ou escalar clusters do Amazon EMR. O EMR Sem Servidor provisiona e gerencia automaticamente os recursos de computação e memória subjacentes com base nas necessidades da aplicação do EMR Sem Servidor. Ele aumenta e reduz a escala dos recursos verticalmente e dinamicamente, cobrando você ou a quantidade de recursos de vCPU, memória e armazenamento consumidos por suas aplicações. Essa abordagem sem servidor permite que você execute cargas de trabalho interativas de preparação de dados a partir de seus JupyterLab notebooks sem se preocupar com o gerenciamento de clusters, ao mesmo tempo em que obtém alta utilização de instâncias e eficiência de custos.

Você deve considerar o EMR Sem Servidor para suas workloads de preparação de dados interativos se elas forem de curta duração ou intermitentes e não exigirem um cluster persistente; se você preferir uma experiência sem servidor com provisionamento e encerramento automáticos de recursos, evitando a sobrecarga de gerenciar a infraestrutura; ou se suas tarefas de preparação de dados interativos girarem principalmente em torno do Apache Spark.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.