Configurar redes para desenvolvimento para o AWS Glue - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurar redes para desenvolvimento para o AWS Glue

Para executar seus scripts de extração, transformação e carregamento (ETL) com o AWS Glue, você pode desenvolvê-los e testá-los usando um endpoint de desenvolvimento. Os endpoints de desenvolvimento não são suportados para uso com trabalhos do AWS Glue versão 2.0. Para as versões 2.0 e posteriores, o método de desenvolvimento preferido é usar o Jupyter Notebook com um dos kernels AWS Glue. Para ter mais informações, consulte Conceitos básicos das sessões interativas do AWS Glue.

Configurar a rede para um endpoint de desenvolvimento

Ao configurar um endpoint de desenvolvimento, você especifica uma nuvem virtual privada (VPC), uma sub-rede e security groups.

nota

Configure seu ambiente de DNS para o AWS Glue. Para ter mais informações, consulte Configurar o DNS na VPC.

Para permitir que o AWS Glue acesse os recursos necessários, adicione uma linha na tabela de rotas da sua sub-rede para associar uma lista de prefixos para o Amazon S3 ao endpoint da VPC. É necessário um ID de lista de prefixos para criar uma regra de grupo de segurança de saída que permita que o tráfego de uma VPC acesse um produto da AWS por meio de um endpoint da VPC. Para facilitar a conexão com um servidor de cadernos associado a esse endpoint de desenvolvimento, na máquina local, adicione uma linha à tabela de rotas para incluir um ID de gateway da Internet. Para obter mais informações, consulte VPC Endpoints. Atualize a tabela de rotas da sub-rede de modo que ela fique semelhante a esta tabela:

Destination (Destino) Destino

10.0.0.0/16

local

pl-id para o Amazon S3

vpce-id

0.0.0.0/0

igw-xxxx

Para permitir que o AWS Glue se comunique entre seus componentes, especifique um grupo de segurança com uma regra de entrada de autorreferência para todas as portas TCP. Ao criar uma regra de autorreferência, você pode restringir a origem ao mesmo security group na VPC e fechá-la para todas as redes. O security group padrão para sua VPC pode já conter uma regra de entrada de autorreferenciada para ALL Traffic.

Para configurar um security group
  1. Faça login no AWS Management Console e abra o console do Amazon EC2 em https://console.aws.amazon.com/ec2/.

  2. No painel de navegação esquerdo, escolha Security Groups.

  3. Escolha um security group existente na lista ou Create Security Group para usar com o endpoint de desenvolvimento.

  4. No painel do security group, navegue até a guia Inbound.

  5. Adicione uma regra de autorreferência para permitir que os componentes do AWS Glue se comuniquem. Especificamente, adicione ou confirme que existe uma regra de Type All TCP, que Protocol é TCP, Port Range inclui todas as portas e Source e Group ID apresentam o mesmo nome de security group.

    A regra de entrada é semelhante a esta:

    Tipo Protocolo Intervalo de portas Origem

    Todos os TCP

    TCP

    0–65535

    security-group

    Veja a seguir um exemplo de uma regra de entrada de autorreferência:

    Imagem mostrando o exemplo de uma regra de entrada de autorreferência.
  6. Adicione uma regra para o tráfego de saída também. Abra um tráfego de saída para todas as portas ou crie uma regra de autorreferência de Type All TCP. Protocol deve ser TCP, Port Range deve incluir todas as portas e Source e Group ID devem apresentar o mesmo nome de security group.

    A regra de saída é semelhante a uma dessas regras:

    Tipo Protocolo Intervalo de portas Destino

    Todos os TCP

    TCP

    0–65535

    security-group

    Todo o tráfego

    ALL

    ALL

    0.0.0.0/0

Configurar o Amazon EC2 para um servidor de cadernos

Com um endpoint de desenvolvimento, você pode criar um servidor de caderno para testar seus scripts de ETL com cadernos Jupyter. Para ativar a comunicação com seu notebook, especifique um security group com regras de entrada para HTTPS (porta 443) e SSH (porta 22). Verifique se a origem da regra é 0.0.0.0/0 ou o endereço IP da máquina que está se conectando ao notebook.

Para configurar um security group
  1. Faça login no AWS Management Console e abra o console do Amazon EC2 em https://console.aws.amazon.com/ec2/.

  2. No painel de navegação esquerdo, escolha Security Groups.

  3. Escolha um security group existente na lista ou Create Security Group para usar com o servidor de notebook. O security group associado ao seu endpoint de desenvolvimento também é usado para criar seu servidor de notebook.

  4. No painel do security group, navegue até a guia Inbound.

  5. Adicione regras de entrada semelhantes a esta:

    Tipo Protocolo Intervalo de portas Origem

    SSH

    TCP

    22

    0.0.0.0/0

    HTTPS

    TCP

    443

    0.0.0.0/0

    Veja a seguir um exemplo das regras de entrada para o security group:

    Imagem mostrando um exemplo das regras de entrada para o grupo de segurança.