Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui la migrazione dei dati da un ambiente Hadoop locale ad Amazon S3 utilizzando with for Amazon S3 DistCp AWS PrivateLink
Creato da Jason Owens (AWS), Andres Cantor (), Jeff Klopfenstein (AWS), Bruno Rocha Oliveira () e Samuel Schmidt (AWS) AWS AWS
Ambiente: produzione | Fonte: Hadoop | Obiettivo: Qualsiasi |
Tipo R: Replatform | Carico di lavoro: open source | Tecnologie: archiviazione e backup; analisi |
AWSservizi: Amazon S3; Amazon EMR |
Riepilogo
Questo modello dimostra come migrare quasi ogni quantità di dati da un ambiente Apache Hadoop locale al cloud Amazon Web Services (AWS) utilizzando lo strumento DistCp
Questa guida fornisce istruzioni per l'uso DistCp per la migrazione dei dati nel cloud. AWS DistCp è lo strumento più utilizzato, ma sono disponibili altri strumenti di migrazione. Ad esempio, puoi utilizzare AWS strumenti offline come AWSSnowball o AWSSnowmobile o strumenti online come AWS Storage Gateway AWS o. AWS DataSync
Prerequisiti e limitazioni
Prerequisiti
Un AWS account attivo con una connessione di rete privata tra il data center locale e il cloud AWS
Un utente Hadoop con accesso ai dati di migrazione nell'Hadoop Distributed File System () HDFS
AWSInterfaccia a riga di comando (AWSCLI), installata e configurata
Autorizzazioni per inserire oggetti in un bucket S3
Limitazioni
Le limitazioni del cloud privato virtuale (VPC) si applicano AWS PrivateLink ad Amazon S3. Per ulteriori informazioni, consulta Proprietà e limitazioni e AWS PrivateLink quote degli endpoint dell'interfaccia (AWS PrivateLink documentazione).
AWS PrivateLink per Amazon S3 non supporta quanto segue:
Architettura
Stack tecnologico di origine
Cluster Hadoop con installato DistCp
Stack tecnologico Target
Amazon S3
Amazon VPC
Architettura Target
Il diagramma mostra come l'amministratore Hadoop utilizza DistCp per copiare i dati da un ambiente locale tramite una connessione di rete privata, come AWS Direct Connect, ad Amazon S3 tramite un endpoint di interfaccia Amazon S3.
Strumenti
AWSservizi
AWSIdentity and Access Management (IAM) consente di gestire in modo sicuro l'accesso alle AWS risorse controllando chi è autenticato e autorizzato a utilizzarle.
Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.
Amazon Virtual Private Cloud (AmazonVPC) ti aiuta a lanciare AWS risorse in una rete virtuale che hai definito. Questa rete virtuale è simile a una rete tradizionale che gestiresti nel tuo data center, con i vantaggi dell'utilizzo dell'infrastruttura scalabile di. AWS
Altri strumenti
Apache Hadoop DistCp
(copia distribuita) è uno strumento utilizzato per copiare intercluster e intracluster di grandi dimensioni. DistCp utilizza MapReduce Apache per la distribuzione, la gestione e il ripristino degli errori e la segnalazione.
Epiche
Attività | Descrizione | Competenze richieste |
---|---|---|
Crea un endpoint AWS PrivateLink per Amazon S3. |
| AWSamministratore |
Verifica gli endpoint e trova le DNS voci. |
| AWSamministratore |
Controlla le regole del firewall e le configurazioni di routing. | Per verificare che le regole del firewall siano aperte e che la configurazione di rete sia impostata correttamente, utilizzate Telnet per testare l'endpoint sulla porta 443. Per esempio:
Nota: se utilizzi la voce Regionale, un test riuscito mostra che DNS si alternano tra i due indirizzi IP che puoi vedere nella scheda Subnet per l'endpoint selezionato nella console Amazon. VPC | Amministratore di rete, amministratore AWS |
Configura la risoluzione dei nomi. | È necessario configurare la risoluzione dei nomi per consentire a Hadoop di accedere all'endpoint dell'interfaccia Amazon S3. Non puoi usare il nome dell'endpoint stesso. È invece necessario risolvere Scegliete una delle seguenti opzioni di configurazione:
| AWSamministratore |
Configura l'autenticazione per Amazon S3. | Per l'autenticazione su Amazon S3 tramite Hadoop, consigliamo di esportare le credenziali temporanee dei ruoli nell'ambiente Hadoop. Per ulteriori informazioni, consulta Autenticazione Per utilizzare credenziali temporanee, aggiungi le credenziali temporanee al file delle credenziali o esegui i seguenti comandi per esportare le credenziali nel tuo ambiente:
Se disponi di una combinazione di chiave di accesso tradizionale e chiave segreta, esegui i seguenti comandi:
Nota: se utilizzi una combinazione di chiave di accesso e chiave segreta, modifica il fornitore delle credenziali nei DistCp comandi da | AWSamministratore |
Trasferisci dati utilizzando DistCp. | Da utilizzare DistCp per trasferire dati, esegui i seguenti comandi:
Nota: la AWS regione dell'endpoint non viene rilevata automaticamente quando si utilizza il DistCp comando with AWS PrivateLink per Amazon S3. Hadoop 3.3.2 e versioni successive risolvono questo problema abilitando l'opzione per impostare in modo esplicito la regione del AWS bucket S3. Per ulteriori informazioni, consultate S3A per aggiungere l'opzione fs.s3a.endpoint.region per impostare la regione (sito Web Hadoop) Per ulteriori informazioni su provider S3A aggiuntivi, consulta Configurazione generale del client S3A (sito Web Hadoop).
Nota: per utilizzare l'endpoint di interfaccia con S3A, è necessario creare una voce DNS alias per il nome regionale S3 (ad esempio, Se hai problemi di firma con Amazon S3, aggiungi un'opzione per utilizzare la firma Signature Version 4 (SigV4):
| Ingegnere addetto alla migrazione, amministratore AWS |