Configurazione dell'VPCaccesso per le applicazioni EMR Serverless per la connessione ai dati - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione dell'VPCaccesso per le applicazioni EMR Serverless per la connessione ai dati

Puoi configurare applicazioni EMR Serverless per connetterti ai tuoi archivi di dati all'interno del tuoVPC, come cluster Amazon Redshift, database Amazon o RDS bucket Amazon S3 con endpoint. VPC La tua applicazione EMR Serverless dispone di connettività in uscita agli archivi di dati all'interno del tuo. VPC Per impostazione predefinita, EMR Serverless blocca l'accesso in entrata alle applicazioni per migliorare la sicurezza.

Nota

È necessario configurare VPC l'accesso se si desidera utilizzare un database metastore Hive esterno per l'applicazione. Per informazioni su come configurare un metastore Hive esterno, consulta Configurazione di Metastore.

Crea applicazione

Nella pagina Crea applicazione, puoi scegliere impostazioni personalizzate e specificare le sottoreti e i gruppi di sicurezza che VPC le applicazioni Serverless possono utilizzare. EMR

VPCs

Scegli il nome del cloud privato virtuale (VPC) che contiene i tuoi archivi di dati. La pagina Crea applicazione elenca tutti VPCs quelli che hai scelto Regione AWS.

Sottoreti

Scegli le sottoreti all'interno dell'archivio dati VPC che contiene il tuo archivio dati. La pagina Crea applicazione elenca tutte le sottoreti per gli archivi dati presenti nel tuo. VPC Sono supportate sia le sottoreti pubbliche che quelle private. Puoi passare sottoreti private o pubbliche alle tue applicazioni. La scelta di disporre di una sottorete pubblica o privata comporta alcune considerazioni di cui tenere conto.

Per le sottoreti private:

Nota

Quando configuri un'applicazione Amazon EMR Serverless in una sottorete privata, ti consigliamo di configurare anche gli VPC endpoint per Amazon S3. Se la tua applicazione EMR Serverless si trova in una sottorete privata senza VPC endpoint per Amazon S3, potresti incorrere in costi NAT gateway aggiuntivi associati al traffico S3. Questo perché il traffico tra l'EMRapplicazione e Amazon S3 non rimarrà all'interno dell'utente VPC quando gli VPC endpoint non sono configurati.

Per le sottoreti pubbliche:

  • Questi hanno un percorso verso un Internet Gateway.

  • È necessario garantire configurazioni adeguate dei gruppi di sicurezza per controllare il traffico in uscita.

I lavoratori possono connettersi agli archivi dati all'interno dell'azienda VPC tramite il traffico in uscita. Per impostazione predefinita, EMR Serverless blocca l'accesso in entrata ai lavoratori. Questo serve a migliorare la sicurezza.

Quando si utilizza AWS Config, EMR Serverless crea un record di elementi dell'interfaccia di rete elastica per ogni lavoratore. Per evitare i costi legati a questa risorsa, prendi AWS::EC2::NetworkInterface in AWS Config considerazione la possibilità di disattivarla.

Nota

Ti consigliamo di selezionare più sottoreti in più zone di disponibilità. Questo perché le sottoreti scelte determinano le zone di disponibilità disponibili per l'avvio di un'applicazione EMR serverless. Ogni lavoratore utilizza un indirizzo IP nella sottorete in cui viene avviato. Assicurati che le sottoreti specificate abbiano indirizzi IP sufficienti per il numero di worker che intendi avviare. Per ulteriori informazioni sulla pianificazione delle sottoreti, vedere. Procedure consigliate per la pianificazione delle sottoreti

Considerazioni e limitazioni per le sottoreti

  • EMRIl serverless con sottoreti pubbliche non supporta Lake Formation AWS .

  • Il traffico in entrata non è supportato per le sottoreti pubbliche.

Gruppi di sicurezza

Scegli uno o più gruppi di sicurezza in grado di comunicare con i tuoi archivi di dati. La pagina Crea applicazione elenca tutti i gruppi di sicurezza presenti nel tuoVPC. EMR Serverless associa questi gruppi di sicurezza a interfacce di rete elastiche collegate alle sottoreti. VPC

Nota

Si consiglia di creare un gruppo di sicurezza separato per le applicazioni Serverless. EMR EMR Serverless non ti consentirà di creare/aggiornare/avviare l'applicazione se i gruppi di sicurezza hanno porte aperte alla rete Internet pubblica su 0.0.0.0/0 o nell'intervallo: :/0. Ciò offre maggiore sicurezza e isolamento e rende più efficiente la gestione delle regole di rete. Ad esempio, questo blocca il traffico imprevisto verso i lavoratori con indirizzi IP pubblici. Per comunicare con i cluster Amazon Redshift, ad esempio, puoi definire le regole del traffico tra i gruppi di sicurezza Redshift e EMR Serverless, come illustrato nell'esempio seguente.

Esempio: comunicazione con i cluster Amazon Redshift
  1. Aggiungi una regola per il traffico in entrata al gruppo di sicurezza Amazon Redshift da uno dei gruppi di EMR sicurezza Serverless.

    Tipo Protocollo Intervallo porte Origine

    Tutte TCP

    TCP

    5439

    emr-serverless-security-group

  2. Aggiungi una regola per il traffico in uscita da uno dei gruppi di sicurezza Serverless. EMR Ci sono due modi per farlo. Innanzitutto, puoi aprire il traffico in uscita verso tutte le porte.

    Tipo Protocollo Intervallo porte Destinazione

    Tutto il traffico

    TCP

    ALL

    0.0.0.0/0

    In alternativa, puoi limitare il traffico in uscita ai cluster Amazon Redshift. Ciò è utile solo quando l'applicazione deve comunicare con i cluster Amazon Redshift e nient'altro.

    Tipo Protocollo Intervallo porte Origine

    Tutte TCP

    TCP

    5439

    redshift-security-group

Configura l'applicazione

È possibile modificare la configurazione di rete per un'applicazione EMR Serverless esistente dalla pagina Configura applicazione.

Visualizza i dettagli dell'esecuzione del processo

Nella pagina dei dettagli del Job run, è possibile visualizzare la sottorete utilizzata dal job per un'esecuzione specifica. Si noti che un processo viene eseguito solo in una sottorete selezionata dalle sottoreti specificate.

Procedure consigliate per la pianificazione delle sottoreti

AWS le risorse vengono create in una sottorete che è un sottoinsieme di indirizzi IP disponibili in Amazon. VPC Ad esempio, una maschera di rete VPC con una maschera di rete /16 ha fino a 65.536 indirizzi IP disponibili che possono essere suddivisi in più reti più piccole utilizzando maschere di sottorete. Ad esempio, è possibile suddividere questo intervallo in due sottoreti, ognuna delle quali utilizza la maschera /17 e 32.768 indirizzi IP disponibili. Una sottorete si trova all'interno di una zona di disponibilità e non può estendersi su più zone.

Le sottoreti devono essere progettate tenendo conto dei limiti di scalabilità delle applicazioni Serverless. EMR Ad esempio, se un'applicazione richiede 4 vCpu lavoratori ed è possibile scalare fino a 4.000vCpu, l'applicazione richiederà al massimo 1.000 lavoratori per un totale di 1.000 interfacce di rete. Ti consigliamo di creare sottoreti su più zone di disponibilità. Ciò consente a EMR Serverless di riprovare il lavoro o di fornire capacità preinizializzata in un'altra zona di disponibilità nell'improbabile eventualità di un guasto in una zona di disponibilità. Pertanto, ogni sottorete in almeno due zone di disponibilità deve avere più di 1.000 indirizzi IP disponibili.

Sono necessarie sottoreti con una dimensione della maschera inferiore o uguale a 22 per effettuare il provisioning di 1.000 interfacce di rete. Qualsiasi maschera superiore a 22 non soddisferà il requisito. Ad esempio, una subnet mask di /23 fornisce 512 indirizzi IP, mentre una maschera di /22 fornisce 1024 e una maschera di /21 fornisce 2048 indirizzi IP. Di seguito è riportato un esempio di 4 sottoreti con una maschera di rete /22 in una maschera di rete /16 che possono essere allocate a VPC diverse zone di disponibilità. Esiste una differenza di cinque tra gli indirizzi IP disponibili e quelli utilizzabili perché i primi quattro indirizzi IP e l'ultimo indirizzo IP in ogni sottorete sono riservati da. AWS

ID sottorete Indirizzo di sottorete Maschera di sottorete Intervallo di indirizzi IP Indirizzi IP disponibili Indirizzi IP utilizzabili

1

10.0.0.0

255,255,252,0/22

10.0.0.0 - 10.0.3.255

1,024

1.019

2

10,04,0

255,255,252,0/22

10.0.4.0 - 10.0.7.255

1,024

1.019

3

10,08.0

255,255,252,0/22

10.0.4.0 - 10.0.7.255

1,024

1.019

4

10,012,0

255,255,252,0/22

10.0.12.0 - 10.0.15.255

1,024

1.019

Dovresti valutare se il tuo carico di lavoro è più adatto per lavoratori di grandi dimensioni. L'utilizzo di lavoratori di dimensioni maggiori richiede un minor numero di interfacce di rete. Ad esempio, l'utilizzo di 16 vCpu worker con un limite di scalabilità delle applicazioni di 4.000 vCpu richiederà al massimo 250 lavoratori per un totale di 250 indirizzi IP disponibili per fornire le interfacce di rete. Per effettuare il provisioning di 250 interfacce di rete sono necessarie sottoreti in più zone di disponibilità con dimensioni della maschera inferiori o uguali a 24. Qualsiasi maschera di dimensioni superiori a 24 offre meno di 250 indirizzi IP.

Se condividi sottoreti tra più applicazioni, ogni sottorete deve essere progettata tenendo conto dei limiti di scalabilità collettivi di tutte le applicazioni. Ad esempio, se avete 3 applicazioni che richiedono 4 vCpu lavoratori e ciascuna può essere scalata fino a 4000 vCpu con una quota di servizio a vCpu livello di account di 12.000, ogni sottorete richiederà 3000 indirizzi IP disponibili. Se VPC quello che desideri utilizzare non ha un numero sufficiente di indirizzi IP, prova ad aumentare il numero di indirizzi IP disponibili. Puoi farlo associando blocchi Classless Inter-Domain Routing () CIDR aggiuntivi al tuo. VPC Per ulteriori informazioni, consulta Associare IPv4 CIDR blocchi aggiuntivi ai tuoi VPC nella Amazon VPC User Guide.

Puoi utilizzare uno dei tanti strumenti disponibili online per generare rapidamente definizioni di sottorete e rivedere la gamma di indirizzi IP disponibili.