Configurazione dell'accesso VPC - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione dell'accesso VPC

Puoi configurare applicazioni EMR Serverless per connetterti ai tuoi archivi di dati all'interno del tuoVPC, come cluster Amazon Redshift, database Amazon o RDS bucket Amazon S3 con endpoint. VPC La tua applicazione EMR Serverless dispone di connettività in uscita agli archivi di dati all'interno del tuo. VPC Per impostazione predefinita, EMR Serverless blocca l'accesso in entrata alle applicazioni per migliorare la sicurezza.

Nota

È necessario configurare VPC l'accesso se si desidera utilizzare un database metastore Hive esterno per l'applicazione. Per informazioni su come configurare un metastore Hive esterno, consulta Configurazione di Metastore.

Crea applicazione

Nella pagina Crea applicazione, puoi scegliere impostazioni personalizzate e specificare le sottoreti e i gruppi di sicurezza che VPC le applicazioni Serverless possono utilizzare. EMR

VPCs

Scegli il nome del cloud privato virtuale (VPC) che contiene i tuoi archivi di dati. La pagina Crea applicazione elenca tutti VPCs quelli che hai scelto Regione AWS.

Sottoreti

Scegli le sottoreti all'interno dell'archivio dati VPC che contiene il tuo archivio dati. La pagina Crea applicazione elenca tutte le sottoreti per gli archivi dati presenti nel tuo. VPC

Le sottoreti selezionate devono essere sottoreti private. Ciò significa che le tabelle di routing associate per le sottoreti non devono avere gateway Internet.

Per la connettività in uscita a Internet, le sottoreti devono disporre di percorsi in uscita che utilizzano un gateway. NAT Per configurare un NAT gateway, consulta Lavorare con i gateway. NAT

Per la connettività Amazon S3, le sottoreti devono avere un NAT gateway o un endpoint configurato. VPC Per configurare un endpoint S3, consulta Creare un VPC endpoint gateway.

Per la connettività con altri dispositivi Servizi AWS esterniVPC, come Amazon DynamoDB, è necessario configurare gli endpoint VPC o un gateway. NAT Per configurare gli VPC endpoint per Servizi AWS, consulta Lavora con gli endpoint. VPC

I lavoratori possono connettersi agli archivi dati all'interno dell'azienda VPC tramite il traffico in uscita. Per impostazione predefinita, EMR Serverless blocca l'accesso in entrata ai lavoratori per migliorare la sicurezza.

Quando si utilizza AWS Config, EMR Serverless crea un record di elementi dell'interfaccia di rete elastica per ogni lavoratore. Per evitare i costi legati a questa risorsa, prendi AWS::EC2::NetworkInterface in AWS Config considerazione la possibilità di disattivarla.

Nota

Ti consigliamo di selezionare più sottoreti in più zone di disponibilità. Questo perché le sottoreti scelte determinano le zone di disponibilità disponibili per l'avvio di un'applicazione EMR serverless. Ogni lavoratore utilizzerà un indirizzo IP nella sottorete in cui viene avviato. Assicurati che le sottoreti specificate abbiano indirizzi IP sufficienti per il numero di worker che intendi avviare. Per ulteriori informazioni sulla pianificazione delle sottoreti, vedere. Procedure consigliate per la pianificazione delle sottoreti

Gruppi di sicurezza

Scegli uno o più gruppi di sicurezza in grado di comunicare con i tuoi archivi di dati. La pagina Crea applicazione elenca tutti i gruppi di sicurezza presenti nel tuoVPC. EMRServerless associa questi gruppi di sicurezza a interfacce di rete elastiche collegate alle sottoreti. VPC

Nota

Si consiglia di creare un gruppo di sicurezza separato per le applicazioni Serverless. EMR Ciò rende più efficienti l'isolamento e la gestione delle regole di rete. Ad esempio, per comunicare con i cluster Amazon Redshift, puoi definire le regole del traffico tra i gruppi di sicurezza Redshift e EMR Serverless, come illustrato nell'esempio seguente.

Esempio: comunicazione con i cluster Amazon Redshift
  1. Aggiungi una regola per il traffico in entrata al gruppo di sicurezza Amazon Redshift da uno dei gruppi di EMR sicurezza Serverless.

    Tipo Protocollo Intervallo porte Origine

    Tutti TCP

    TCP

    5439

    emr-serverless-security-group

  2. Aggiungi una regola per il traffico in uscita da uno dei gruppi di sicurezza EMR Serverless. Ci sono due modi per farlo. Innanzitutto, puoi aprire il traffico in uscita verso tutte le porte.

    Tipo Protocollo Intervallo porte Destinazione

    Tutto il traffico

    TCP

    ALL

    0.0.0.0/0

    In alternativa, puoi limitare il traffico in uscita ai cluster Amazon Redshift. Ciò è utile solo quando l'applicazione deve comunicare con i cluster Amazon Redshift e nient'altro.

    Tipo Protocollo Intervallo porte Origine

    Tutto TCP

    TCP

    5439

    redshift-security-group

Configura l'applicazione

È possibile modificare la configurazione di rete per un'applicazione EMR Serverless esistente dalla pagina Configura applicazione.

Visualizza i dettagli dell'esecuzione del processo

Nella pagina dei dettagli del Job run, è possibile visualizzare la sottorete utilizzata dal job per un'esecuzione specifica. Si noti che un processo viene eseguito solo in una sottorete selezionata dalle sottoreti specificate.

Procedure consigliate per la pianificazione delle sottoreti

AWS le risorse vengono create in una sottorete che è un sottoinsieme di indirizzi IP disponibili in Amazon. VPC Ad esempio, una maschera di rete VPC con una maschera di rete /16 ha fino a 65.536 indirizzi IP disponibili che possono essere suddivisi in più reti più piccole utilizzando maschere di sottorete. Ad esempio, è possibile suddividere questo intervallo in due sottoreti, ognuna delle quali utilizza la maschera /17 e 32.768 indirizzi IP disponibili. Una sottorete si trova all'interno di una zona di disponibilità e non può estendersi su più zone.

Le sottoreti devono essere progettate tenendo conto dei limiti di scalabilità delle applicazioni Serverless. EMR Ad esempio, se un'applicazione richiede 4 vCpu lavoratori ed è possibile scalare fino a 4.000vCpu, l'applicazione richiederà al massimo 1.000 lavoratori per un totale di 1.000 interfacce di rete. Ti consigliamo di creare sottoreti su più zone di disponibilità. Ciò consente a EMR Serverless di riprovare il lavoro o di fornire capacità preinizializzata in un'altra zona di disponibilità nell'improbabile eventualità di un guasto in una zona di disponibilità. Pertanto, ogni sottorete in almeno due zone di disponibilità deve avere più di 1.000 indirizzi IP disponibili.

Sono necessarie sottoreti con una dimensione della maschera inferiore o uguale a 22 per effettuare il provisioning di 1.000 interfacce di rete. Qualsiasi maschera superiore a 22 non soddisferà il requisito. Ad esempio, una subnet mask di /23 fornisce 512 indirizzi IP, mentre una maschera di /22 fornisce 1024 e una maschera di /21 fornisce 2048 indirizzi IP. Di seguito è riportato un esempio di 4 sottoreti con una maschera di rete /22 in una maschera di rete /16 che possono essere allocate a VPC diverse zone di disponibilità. Esiste una differenza di cinque tra gli indirizzi IP disponibili e quelli utilizzabili perché i primi quattro indirizzi IP e l'ultimo indirizzo IP in ogni sottorete sono riservati da. AWS

ID sottorete Indirizzo di sottorete Maschera di sottorete Intervallo di indirizzi IP Indirizzi IP disponibili Indirizzi IP utilizzabili

1

10.0.0.0

255,255,252,0/22

10.0.0.0 - 10.0.3.255

1,024

1.019

2

10,04,0

255,255,252,0/22

10.0.4.0 - 10.0.7.255

1,024

1.019

3

10,08.0

255,255,252,0/22

10.0.4.0 - 10.0.7.255

1,024

1.019

4

10,012,0

255,255,252,0/22

10.0.12.0 - 10.0.15.255

1,024

1.019

Dovresti valutare se il tuo carico di lavoro è più adatto per lavoratori di grandi dimensioni. L'utilizzo di lavoratori di dimensioni maggiori richiede un minor numero di interfacce di rete. Ad esempio, l'utilizzo di 16 vCpu worker con un limite di scalabilità delle applicazioni di 4.000 vCpu richiederà al massimo 250 lavoratori per un totale di 250 indirizzi IP disponibili per fornire le interfacce di rete. Per effettuare il provisioning di 250 interfacce di rete sono necessarie sottoreti in più zone di disponibilità con dimensioni della maschera inferiori o uguali a 24. Qualsiasi maschera di dimensioni superiori a 24 offre meno di 250 indirizzi IP.

Se condividi sottoreti tra più applicazioni, ogni sottorete deve essere progettata tenendo conto dei limiti di scalabilità collettivi di tutte le applicazioni. Ad esempio, se avete 3 applicazioni che richiedono 4 vCpu lavoratori e ciascuna può essere scalata fino a 4000 vCpu con una quota di servizio a vCpu livello di account di 12.000, ogni sottorete richiederà 3000 indirizzi IP disponibili. Se VPC quello che desideri utilizzare non ha un numero sufficiente di indirizzi IP, prova ad aumentare il numero di indirizzi IP disponibili. Puoi farlo associando blocchi Classless Inter-Domain Routing () CIDR aggiuntivi al tuo. VPC Per ulteriori informazioni, consulta Associare IPv4 CIDR blocchi aggiuntivi ai tuoi VPC nella Amazon VPC User Guide.

Puoi utilizzare uno dei tanti strumenti disponibili online per generare rapidamente definizioni di sottorete e rivedere la gamma di indirizzi IP disponibili.