Configurando o VPC acesso para aplicativos EMR sem servidor para se conectar aos dados - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando o VPC acesso para aplicativos EMR sem servidor para se conectar aos dados

Você pode configurar aplicativos EMR sem servidor para se conectar aos seus armazenamentos de dados dentro do seuVPC, como clusters do Amazon Redshift, bancos de dados Amazon ou buckets do RDS Amazon S3 com endpoints. VPC Seu aplicativo EMR sem servidor tem conectividade de saída com os armazenamentos de dados dentro do seu. VPC Por padrão, o EMR Serverless bloqueia o acesso de entrada aos seus aplicativos para melhorar a segurança.

nota

Você deve configurar o VPC acesso se quiser usar um banco de dados externo do Hive Metastore para seu aplicativo. Para obter informações sobre como configurar uma metastore externa do Hive, Metastore configuration.

Criar aplicativo

Na página Criar aplicativo, você pode escolher configurações personalizadas e especificar as sub-redes e VPC os grupos de segurança que os aplicativos EMR sem servidor podem usar.

VPCs

Escolha o nome da nuvem privada virtual (VPC) que contém seus armazenamentos de dados. A página Criar aplicativo lista todas as VPCs opções escolhidas Região da AWS.

Sub-redes

Escolha as sub-redes dentro do VPC que contém seu armazenamento de dados. A página Criar aplicativo lista todas as sub-redes dos armazenamentos de dados em seu. VPC Há suporte para sub-redes públicas e privadas. Você pode passar sub-redes privadas ou públicas para seus aplicativos. A escolha de ter uma sub-rede pública ou privada tem algumas considerações associadas que você deve conhecer.

Para sub-redes privadas:

  • As tabelas de rotas associadas não devem ter gateways de internet.

  • Para conectividade de saída com a Internet, se necessário, configure rotas de saída usando um NAT Gateway. Para configurar um NAT Gateway, consulte NATgateways.

  • Para conectividade com o Amazon S3, configure um NAT gateway ou um VPC endpoint. Para configurar um VPC endpoint S3, consulte Criar um endpoint de gateway.

  • Para conectividade com outras pessoas Serviços da AWS fora doVPC, como com o Amazon DynamoDB, configure endpoints VPC ou um gateway. NAT Para configurar VPC endpoints para Serviços da AWS, consulte Trabalhar com VPC endpoints.

nota

Ao configurar um aplicativo Amazon EMR Serverless em uma sub-rede privada, recomendamos que você também configure VPC endpoints para o Amazon S3. Se seu aplicativo EMR sem servidor estiver em uma sub-rede privada sem VPC endpoints para o Amazon S3, você poderá incorrer em cobranças adicionais de NAT gateway associadas ao tráfego do S3. Isso ocorre porque o tráfego entre seu EMR aplicativo e o Amazon S3 não permanecerá dentro de você VPC quando os VPC endpoints não estiverem configurados.

Para sub-redes públicas:

  • Eles têm uma rota para um Gateway da Internet.

  • Você deve garantir configurações adequadas do grupo de segurança para controlar o tráfego de saída.

Os trabalhadores podem se conectar aos armazenamentos de dados dentro de você VPC por meio do tráfego de saída. Por padrão, o EMR Serverless bloqueia o acesso de entrada aos trabalhadores. Isso é para melhorar a segurança.

Quando você usa AWS Config, o EMR Serverless cria um registro de item de interface de rede elástica para cada trabalhador. Para evitar custos relacionados a esse recurso, considere desligá-lo AWS::EC2::NetworkInterface AWS Config.

nota

Recomendamos selecionar várias sub-redes entre várias zonas de disponibilidade. Isso ocorre porque as sub-redes que você escolhe determinam as zonas de disponibilidade disponíveis para a inicialização de um EMR aplicativo sem servidor. Cada trabalhador consome um endereço IP na sub-rede em que é iniciado. Certifique-se de que as sub-redes especificadas tenham endereços IP suficientes para o número de trabalhadores que você planeja iniciar. Para obter mais informações sobre o planejamento de sub-redes, consulte Práticas recomendadas do planejamento de sub-redes.

Considerações e limitações para sub-redes

  • EMRO Serverless com sub-redes públicas não é compatível com Lake Formation. AWS

  • O tráfego de entrada não é compatível com sub-redes públicas.

Grupos de segurança

Escolha um ou mais grupos de segurança que possam se comunicar com seus armazenamentos de dados. A página Criar aplicativo lista todos os grupos de segurança em seuVPC. EMR O Serverless associa esses grupos de segurança a interfaces de rede elásticas conectadas às suas sub-redes. VPC

nota

Recomendamos que você crie um grupo de segurança separado para aplicativos EMR sem servidor. EMR O Serverless não permitirá que você crie/atualize/inicie o aplicativo se os grupos de segurança tiverem portas abertas para a Internet pública em 0.0.0.0/0 ou no intervalo: :/0. Isso fornece segurança e isolamento aprimorados e torna o gerenciamento das regras de rede mais eficiente. Por exemplo, isso bloqueia o tráfego inesperado para trabalhadores com endereços IP públicos. Para se comunicar com os clusters do Amazon Redshift, por exemplo, você pode definir as regras de tráfego entre os grupos de segurança do Redshift e do EMR Serverless, conforme demonstrado no exemplo abaixo.

exemplo Exemplo: comunicação com clusters do Amazon Redshift
  1. Adicione uma regra para tráfego de entrada para o grupo de segurança do Amazon Redshift a partir de um dos grupos de segurança EMR Serverless.

    Tipo Protocolo Intervalo de portas Origem

    Todas as TCP

    TCP

    5439

    emr-serverless-security-group

  2. Adicione uma regra para o tráfego de saída de um dos grupos de segurança EMR sem servidor. É possível fazer isso de duas formas. Primeiro, você pode abrir o tráfego de saída para todas as portas.

    Tipo Protocolo Intervalo de portas Destino

    Todo o tráfego

    TCP

    ALL

    0.0.0.0/0

    Como alternativa, você pode restringir o tráfego de saída para os clusters do Amazon Redshift. Isso é útil somente quando a aplicação precisa se comunicar com os clusters do Amazon Redshift e nada mais.

    Tipo Protocolo Intervalo de portas Origem

    Todas as TCP

    TCP

    5439

    redshift-security-group

Configuração de aplicações

Você pode alterar a configuração de rede de um aplicativo EMR Serverless existente na página Configurar aplicativo.

Exibição dos detalhes da execução do trabalho

Na página de Detalhes da execução do trabalho, você pode exibir a sub-rede usada pelo seu trabalho para uma execução específica. Observe que um trabalho é executado somente em uma sub-rede selecionada das sub-redes especificadas.

Práticas recomendadas do planejamento de sub-redes

AWS os recursos são criados em uma sub-rede que é um subconjunto de endereços IP disponíveis em uma Amazon. VPC Por exemplo, um VPC com uma máscara de rede /16 tem até 65.536 endereços IP disponíveis que podem ser divididos em várias redes menores usando máscaras de sub-rede. Como exemplo, você pode dividir esse intervalo em duas sub-redes, cada uma usando a máscara /17 e 32.768 endereços IP disponíveis. Uma sub-rede reside dentro de uma zona de disponibilidade e não pode abranger várias zonas.

As sub-redes devem ser projetadas tendo em mente os limites de escalabilidade de aplicativos EMR sem servidor. Por exemplo, se você tiver um aplicativo solicitando 4 vCpu trabalhadores e puder escalar até 4.000vCpu, seu aplicativo precisará de no máximo 1.000 trabalhadores para um total de 1.000 interfaces de rede. Recomendamos criar sub-redes em várias zonas de disponibilidade. Isso permite que o EMR Serverless repita seu trabalho ou provisione a capacidade pré-inicializada em uma zona de disponibilidade diferente em um evento improvável quando uma zona de disponibilidade falhar. Portanto, cada sub-rede em pelo menos duas zonas de disponibilidade deve ter mais de 1.000 endereços IP disponíveis.

Você precisa de sub-redes com tamanho de máscara menor ou igual a 22 para provisionar 1.000 interfaces de rede. Qualquer máscara maior que 22 não atenderá ao requisito. Por exemplo, uma máscara de sub-rede de /23 fornece 512 endereços IP, enquanto uma máscara de /22 fornece 1.024 e uma máscara de /21 fornece 2.048 endereços IP. Abaixo está um exemplo de 4 sub-redes com máscara /22 em uma máscara VPC de rede /16 que podem ser alocadas em diferentes zonas de disponibilidade. Há uma diferença de cinco entre endereços IP disponíveis e utilizáveis porque os primeiros quatro endereços IP e o último endereço IP em cada sub-rede são reservados por. AWS

ID da sub-rede Endereço de sub-rede Máscara de sub-rede Intervalo de endereços IP Endereços IP disponíveis Endereços IP utilizáveis

1

10.0.0.0

255.255.252.0/22

De 10.0.0.0 a 10.0.3.255

1,024

1.019

2

10.0.4.0

255.255.252.0/22

De 10.0.4.0 a 10.0.7.255

1,024

1.019

3

10.0.8.0

255.255.252.0/22

De 10.0.4.0 a 10.0.7.255

1,024

1.019

4

10.0.12.0

255.255.252.0/22

De 10.0.12.0 a 10.0.15.255

1,024

1.019

Você deve avaliar se a workload é mais adequada para trabalhadores maiores. Usar trabalhadores maiores requer menos interfaces de rede. Por exemplo, o uso de 16 vCpu trabalhadores com um limite de escalabilidade de aplicativos de 4.000 vCpu exigirá no máximo 250 trabalhadores para um total de 250 endereços IP disponíveis para provisionar interfaces de rede. Você precisa de sub-redes em várias zonas de disponibilidade com tamanho de máscara menor ou igual a 24 para provisionar 250 interfaces de rede. Qualquer tamanho de máscara maior que 24 oferece menos de 250 endereços IP.

Se você compartilha sub-redes em várias aplicações, cada sub-rede deve ser projetada tendo em mente os limites de ajuste de escala coletivo de todas as aplicações. Por exemplo, se você tiver 3 aplicativos solicitando 4 vCpu trabalhadores e cada um puder escalar até 4000 vCpu com uma cota baseada em serviços de 12.000 no vCpu nível da conta, cada sub-rede exigirá 3.000 endereços IP disponíveis. Se o VPC que você deseja usar não tiver um número suficiente de endereços IP, tente aumentar o número de endereços IP disponíveis. Você pode fazer isso associando blocos adicionais de roteamento entre domínios sem classe (CIDR) ao seu. VPC Para obter mais informações, consulte Associar IPv4 CIDR blocos adicionais ao seu VPC no Guia VPC do usuário da Amazon.

Você pode usar uma das muitas ferramentas disponíveis on-line para gerar rapidamente definições de sub-rede e analisar o intervalo disponível de endereços IP.