Prepare dados usando o EMR Serverless - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Prepare dados usando o EMR Serverless

Começando com a versão da imagem de SageMaker distribuição1.10, o Amazon SageMaker Studio se integra ao EMR Serverless. Nos JupyterLab notebooks do SageMaker Studio, cientistas e engenheiros de dados podem descobrir e se conectar a aplicativos EMR sem servidor e, em seguida, explorar, visualizar e preparar de forma interativa cargas de trabalho Apache Spark ou Apache Hive. Essa integração permite realizar o pré-processamento interativo de dados em grande escala na preparação para o treinamento e a implantação do modelo de ML.

Especificamente, a versão atualizada da versão de imagem sagemaker-studio-analytics-extensionem SageMakerdistribuição 1.10 aproveita a integração entre o Apache Livy e o EMR Serverless, permitindo a conexão com um endpoint do Apache Livy por meio de notebooks. JupyterLab Esta seção pressupõe conhecimento prévio de aplicativos EMRinterativos sem servidor.

Importante

Ao usar o Studio, você só pode descobrir e se conectar a aplicativos EMR sem servidor para JupyterLab aplicativos que são iniciados a partir de espaços privados. Certifique-se de que os aplicativos EMR sem servidor estejam localizados na mesma AWS região do seu ambiente Studio.

Pré-requisitos

Antes de começar a executar cargas de trabalho interativas com o EMR Serverless em seus JupyterLab notebooks, certifique-se de atender aos seguintes pré-requisitos:

  1. Seu JupyterLab espaço deve usar uma versão SageMaker de imagem de distribuição 1.10 ou superior.

  2. Crie um aplicativo interativo EMR sem servidor com a EMR versão Amazon 6.14.0 ou superior. Você pode criar um aplicativo EMR sem servidor a partir da interface de usuário do Studio seguindo as etapas em. Crie aplicativos EMR sem servidor a partir do Studio

    nota

    Para uma configuração mais simples, você pode criar seu aplicativo EMR sem servidor na interface do usuário do Studio sem alterar nenhuma configuração padrão da opção Virtual private cloud (VPC). Isso permite que o aplicativo seja criado em seu domínio VPC sem exigir nenhuma configuração de rede. Nesse caso, você pode pular a seguinte etapa de configuração de rede.

  3. Analise os requisitos de rede e segurança emConfigure o acesso à rede para seu EMR cluster Amazon. Especificamente, certifique-se de que você:

    • Estabeleça uma conexão VPC de peering entre sua conta Studio e sua conta EMR Serverless.

    • Adicione rotas às tabelas de rotas da sub-rede privada em ambas as contas.

    • Configure o grupo de segurança anexado ao seu domínio do Studio para permitir o tráfego de saída e configure o grupo de segurança do VPC local em que você planeja executar os aplicativos EMR sem servidor para permitir o TCP tráfego de entrada do grupo de segurança da instância do Studio.

  4. Para acessar seus aplicativos interativos no EMR Serverless e executar cargas de trabalho enviadas de seus JupyterLab notebooks no SageMaker Studio, você deve atribuir permissões e funções específicas. Consulte a Configure as permissões para permitir a listagem e o lançamento de EMR aplicativos da Amazon a partir do SageMaker Studio seção para obter detalhes sobre as funções e permissões necessárias.