Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui la migrazione dei dati Hadoop su Amazon S3 utilizzando Migrator WANdisco LiveData
Creato da Tony Velcich
Fonte: cluster Hadoop locale | Obiettivo: Amazon S3 | Tipo R: Rehost |
Ambiente: produzione | Tecnologie: DataLakes Big data; Cloud ibrido; Migrazione | Carico di lavoro: tutti gli altri carichi di lavoro |
AWSservizi: Amazon S3 |
Riepilogo
Questo modello descrive il processo di migrazione dei dati di Apache Hadoop da un Hadoop Distributed File System () ad Amazon Simple Storage Service (Amazon S3) HDFS Simple Storage Service (Amazon S3). Utilizza WANdisco LiveData Migrator per automatizzare il processo di migrazione dei dati.
Prerequisiti e limitazioni
Prerequisiti
Nodo edge del cluster Hadoop in cui LiveData verrà installato Migrator. Il nodo deve soddisfare i seguenti requisiti:
Specifiche minime: 4CPUs, 16 GBRAM, 100 GB di spazio di archiviazione.
Rete minima 2 Gbps.
Porta 8081 accessibile sul nodo perimetrale per accedere all'WANdiscointerfaccia utente.
Java 1.8 a 64 bit.
Librerie client Hadoop installate sul nodo perimetrale.
Capacità di autenticarsi come HDFSsuperutente
(ad esempio, «hdfs»). Se Kerberos è abilitato sul cluster Hadoop, sul nodo edge deve essere disponibile un keytab valido che contenga un principal adatto per il HDFS superutente.
Consulta le note di rilascio
per un elenco dei sistemi operativi supportati.
Un AWS account attivo con accesso a un bucket S3.
Un collegamento AWS Direct Connect stabilito tra il cluster Hadoop locale (in particolare il nodo perimetrale) e. AWS
Versioni del prodotto
LiveData Migrator 1.8.6
WANdiscoInterfaccia utente (OneUI) 5.8.0
Architettura
Stack di tecnologia di origine
Cluster Hadoop locale
Stack tecnologico Target
Amazon S3
Architettura
Il diagramma seguente mostra l'architettura della soluzione LiveData Migrator.
Il flusso di lavoro è composto da quattro componenti principali per la migrazione dei dati da locale HDFS ad Amazon S3.
LiveData Migrator
: automatizza la migrazione dei dati da Amazon HDFS S3 e risiede su un nodo perimetrale del cluster Hadoop. HDFS
— Un file system distribuito che fornisce un accesso ad alta velocità ai dati delle applicazioni. Amazon S3
: un servizio di storage di oggetti che offre scalabilità, disponibilità dei dati, sicurezza e prestazioni. AWSDirect Connect: servizio che stabilisce una connessione di rete dedicata dai data center locali a. AWS
Automazione e scalabilità
In genere si creano più migrazioni in modo da poter selezionare contenuti specifici dal file system di origine per percorso o directory. È inoltre possibile migrare i dati su più file system indipendenti contemporaneamente definendo più risorse di migrazione.
Epiche
Attività | Descrizione | Competenze richieste |
---|---|---|
Accedi al tuo account AWS. | Accedi alla console di AWS gestione e apri la console Amazon S3 all'indirizzo. https://console.aws.amazon.com/s3/ | AWSesperienza |
Crea un bucket S3. | Se non disponi già di un bucket S3 esistente da utilizzare come storage di destinazione, scegli l'opzione «Crea bucket» sulla console Amazon S3 e specifica il nome del bucket, la AWS regione e le impostazioni del bucket per bloccare l'accesso pubblico. AWSe ti WANdisco consigliamo di abilitare le opzioni di accesso pubblico a blocchi per il bucket S3 e di configurare le politiche di accesso al bucket e di autorizzazione degli utenti per soddisfare i requisiti della tua organizzazione. Un AWS esempio è fornito in latest/dev/ -example1.html https://docs.aws.amazon.com/AmazonS3/. example-walkthroughs-managing-access | AWSesperienza |
Attività | Descrizione | Competenze richieste |
---|---|---|
Scarica il programma di installazione di LiveData Migrator. | Scarica il programma di installazione di LiveData Migrator e caricalo sul nodo edge di Hadoop. Puoi scaricare una versione di prova gratuita di Migrator all'indirizzo /aws.amazon.com/marketplace/pp/B07B8. LiveData https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ SZND9 | Amministratore Hadoop, proprietario dell'applicazione |
Installa LiveData Migrator. | Usa il programma di installazione scaricato e installa LiveData Migrator come HDFS superutente su un nodo perimetrale del tuo cluster Hadoop. Vedi la sezione «Informazioni aggiuntive» per i comandi di installazione. | Amministratore Hadoop, proprietario dell'applicazione |
Controlla lo stato di LiveData Migrator e di altri servizi. | Controlla lo stato di LiveData Migrator, Hive migrator e WANdisco UI utilizzando i comandi forniti nella sezione «Informazioni aggiuntive». | Amministratore Hadoop, proprietario dell'applicazione |
Attività | Descrizione | Competenze richieste |
---|---|---|
Registra il tuo account LiveData Migrator. | Accedi all'WANdiscointerfaccia utente tramite un browser Web sulla porta 8081 (sul nodo edge Hadoop) e fornisci i tuoi dati per la registrazione. Ad esempio, se esegui LiveData Migrator su un host denominato myldmhost.example.com, sarebbe: http://myldmhost.example.com:8081 URL | Proprietario dell'applicazione |
Configura HDFS lo storage di origine. | Fornisci i dettagli di configurazione necessari per HDFS lo storage di origine. Ciò includerà il valore «fs.defaultFS» e un nome di archiviazione definito dall'utente. Se Kerberos è abilitato, fornite la posizione principale e keytab da utilizzare per Migrator. LiveData Se NameNode HA è abilitato sul cluster, fornisci un percorso ai file core-site.xml e hdfs-site.xml sul nodo perimetrale. | Amministratore Hadoop, proprietario dell'applicazione |
Configura lo storage Amazon S3 di destinazione. | Aggiungi lo storage di destinazione come tipo S3a. Fornisci il nome di storage definito dall'utente e il nome del bucket S3. Inserisci «org.apache.hadoop.fs.s3a.S impleAWSCredentials Provider» per l'opzione Credentials Provider e fornisci le chiavi di accesso e segrete per il bucket S3. AWS Saranno inoltre necessarie proprietà S3a aggiuntive. Per i dettagli, consulta la sezione «Proprietà S3a» nella documentazione di LiveData Migrator all'indirizzo docs/command-reference/# 3a. https://docs.wandisco.com/live-data-migrator/ filesystem-add-s | AWS, Proprietario dell'applicazione |
Attività | Descrizione | Competenze richieste |
---|---|---|
Aggiungi esclusioni (se necessario). | Se desideri escludere set di dati specifici dalla migrazione, aggiungi le esclusioni per l'archiviazione di origine. HDFS Queste esclusioni possono essere basate sulla dimensione del file, sui nomi dei file (basati su modelli regex) e sulla data di modifica. | Amministratore Hadoop, proprietario dell'applicazione |
Attività | Descrizione | Competenze richieste |
---|---|---|
Crea e configura la migrazione. | Crea una migrazione nella dashboard dell'WANdiscointerfaccia utente. Scegli l'origine (HDFS) e la destinazione (il bucket S3). Aggiungi nuove esclusioni che hai definito nel passaggio precedente. Seleziona l'opzione «Sovrascrivi» o «Ignora se le dimensioni corrispondono». Crea la migrazione quando tutti i campi sono completi. | Amministratore Hadoop, proprietario dell'applicazione |
Avvia la migrazione. | Nella dashboard, seleziona la migrazione che hai creato. Fai clic per avviare la migrazione. Puoi anche avviare una migrazione automaticamente scegliendo l'opzione di avvio automatico al momento della creazione della migrazione. | Proprietario dell'applicazione |
Attività | Descrizione | Competenze richieste |
---|---|---|
Imposta un limite di larghezza di banda di rete tra l'origine e la destinazione. | Nell'elenco Archiviazioni sulla dashboard, seleziona lo spazio di archiviazione di origine e seleziona «Gestione della larghezza di banda» nell'elenco di raggruppamento. Deseleziona l'opzione illimitata e definisci il limite e l'unità di larghezza di banda massimi. Scegli «Applica». | Proprietario dell'applicazione, Networking |
Attività | Descrizione | Competenze richieste |
---|---|---|
Visualizza le informazioni sulla migrazione utilizzando l'WANdiscointerfaccia utente. | Utilizza l'WANdiscointerfaccia utente per visualizzare le informazioni su licenza, larghezza di banda, archiviazione e migrazione. L'interfaccia utente fornisce anche un sistema di notifica che consente di ricevere notifiche su errori, avvisi o tappe importanti dell'utilizzo. | Amministratore Hadoop, proprietario dell'applicazione |
Interrompi, riprendi ed elimina le migrazioni. | È possibile impedire a una migrazione di trasferire contenuti verso la destinazione inserendola nello stato. STOPPED Le migrazioni interrotte possono essere riprese. È inoltre possibile eliminare le migrazioni nello STOPPED stato. | Amministratore Hadoop, proprietario dell'applicazione |
Risorse correlate
Informazioni aggiuntive
LiveData Installazione di Migrator
Potete usare i seguenti comandi per installare LiveData Migrator, supponendo che il programma di installazione si trovi nella vostra directory di lavoro:
su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh
Verifica dello stato di LiveData Migrator e degli altri servizi dopo l'installazione
Usa i seguenti comandi per controllare lo stato di LiveData Migrator, Hive migrator e UI: WANdisco
service livedata-migrator status service hivemigrator status service livedata-ui status