Visão geral dos Cadernos do Amazon EMR
nota
Os cadernos do EMR estão disponíveis como Workspaces do EMR Studio no console. O botão Criar Workspace no console permite criar cadernos. Para acessar ou criar Workspaces, os usuários dos Cadernos do EMR precisam de permissões adicionais de perfil do IAM. Para obter mais informações, consulte Amazon EMR Notebooks are Amazon EMR Studio Workspaces in the console e console do Amazon EMR.
É possível usar Cadernos do Amazon EMR em conjunto com clusters do Amazon EMR que executam o Apache Spark
É possível iniciar um cluster, anexar um Caderno do EMR para análise e, em seguida, encerrar o cluster. Você também pode fechar um bloco de anotações anexado a um cluster em execução e alternar para outro. Diversos usuários podem anexar cadernos ao mesmo cluster simultaneamente e compartilhar arquivos de cadernos no Amazon S3 entre si. Esses recursos permitem executar clusters sob demanda para economizar custos e reduzir o tempo gasto reconfigurando blocos de anotações para diferentes clusters e conjuntos de dados.
Você também pode executar um Caderno do EMR programaticamente usando a API do Amazon EMR, sem a necessidade de interagir com o console do Amazon EMR (“execução descentralizada”). É necessário incluir uma célula no Caderno do EMR que tenha uma etiqueta de parâmetros. Essa célula permite que um script transfira novos valores de entrada para o caderno. Cadernos parametrizados podem ser reutilizados com diferentes conjuntos de valores de entrada. Não há necessidade de fazer cópias do mesmo caderno para editar e executar com novos valores de entrada. O Amazon EMR cria e salva o caderno de saída no S3 para cada execução do caderno parametrizado. Para obter exemplos de código da API do Caderno do EMR, consulte Exemplos de comandos programáticos para cadernos do EMR.
Importante
A funcionalidade de Cadernos do EMR oferece suporte a clusters que usam versões 5.18.0 e superiores do Amazon EMR. Recomendamos usar os Cadernos do EMR com clusters que usam a versão mais recente do Amazon EMR ou, no mínimo, as versões 5.30.0, 5.32.0 ou 6.2.0. Com essas versões, os kernels do Jupyter são executados no cluster anexado, em vez de em uma instância do Jupyter. Isso melhora a performance e aprimora sua capacidade de personalizar kernels e bibliotecas. Para ter mais informações, consulte Diferenças nas funcionalidades por versão de liberação do cluster.
Cobranças são aplicáveis ao armazenamento do Amazon S3 e aos clusters do Amazon EMR.