Configurazione dei AWS DataSync trasferimenti da HDFS - AWS DataSync

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione dei AWS DataSync trasferimenti da HDFS

Per trasferire i dati dal file system distribuito Hadoop (HDFS), è necessario creare una AWS DataSync posizione di trasferimento.

Accesso ai cluster HDFS FS

Per connetterti al tuo cluster HDFS, DataSync utilizza un agente che installi vicino al tuo cluster HDFS. Per ulteriori informazioni sugli DataSync agenti, vedereCollaborazione con AWS DataSync gli agenti. L'DataSyncagente agisce come un client HDFS e comunica con i cluster NameNodes e DataNodes all'interno dei cluster.

Quando si avvia un'operazione, DataSync interroga NameNode le posizioni di file e cartelle nel cluster. Se la posizione HDFS è configurata come origine, DataSync legge i dati dei file e delle cartelle dal cluster e li copia DataNodes nella destinazione. Se la posizione HDFS è configurata come destinazione, DataSync scrive file e cartelle dalla destinazione all'DataNodesinterno del cluster. Prima di eseguire l'DataSyncattività, verifica la connettività dell'agente al cluster HDFS. Per ulteriori informazioni, consulta Verifica della connessione dell'agente a un sistema di storage.

Autenticazione

Quando ci si connette a un cluster HDFS, DataSync supporta l'autenticazione semplice o l'autenticazione Kerberos. Per utilizzare l'autenticazione semplice, fornisci il nome utente di un utente con diritti di lettura e scrittura nel cluster HDFS. Per utilizzare l'autenticazione Kerberos, fornisci un file di configurazione Kerberos, un file di tabella delle chiavi Kerberos (keytab) e un nome principale Kerberos. Le credenziali del codice principale di Kerberos devono essere contenute nel file keytab fornito.

Encryption (Crittografia)

Quando si utilizza l'autenticazione Kerberos, DataSync supporta la crittografia dei dati durante la trasmissione tra l'DataSyncagente e il cluster HDFS. Crittografa i tuoi dati utilizzando le impostazioni di configurazione Quality of Protection (QOP) sul tuo cluster HDFS e specificando le impostazioni QOP durante la creazione della posizione HDFS. La configurazione QOP include le impostazioni per la protezione del trasferimento dei dati e la protezione RPC (Remote Procedure Call).

DataSyncsupporta i seguenti tipi di crittografia Kerberos:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

Puoi anche configurare i cluster HDFS FS per la crittografia a riposo utilizzando Transparent Data Encryption (TDE). Quando si utilizza l'autenticazione semplice, DataSync legge e scrive su cluster compatibili con TDE. Se lo usi DataSync per copiare dati su un cluster compatibile con TDE, configura innanzitutto le zone di crittografia sul cluster HDFS. DataSyncnon crea zone di crittografia.

Creazione della posizione di trasferimento HDFS

Configura una posizione in cui puoi utilizzare come fonte per il DataSync trasferimento.

Prima di iniziare: verifica la connettività di rete tra il tuo agente e il cluster Hadoop effettuando le seguenti operazioni:

Per creare una posizione HDFS utilizzando la console DataSync
  1. Apri la AWS DataSync console all'indirizzo https://console.aws.amazon.com/datasync/.

  2. Nel riquadro di navigazione a sinistra, espandi Trasferimento dati, quindi scegli Posizioni e Crea posizione.

  3. Per Tipo di posizione, scegli Hadoop Distributed File System (HDFS). Puoi configurare questa posizione come origine o destinazione in un secondo momento.

  4. Per gli agenti, scegli uno o più agenti che desideri utilizzare dall'elenco degli agenti disponibili. L'agente si connette al cluster HDFS per trasferire in modo sicuro i dati tra il cluster HDFS e. DataSync

  5. Per NameNode, fornire il nome di dominio o l'indirizzo IP del cluster HDFS NameNode primario.

  6. In Cartella, inserisci una cartella nel tuo cluster HDFS che DataSync verrà utilizzata per il trasferimento dei dati. Quando la posizione viene utilizzata come origine per un'operazione, DataSync copia i file nella cartella fornita. Quando la tua posizione viene utilizzata come destinazione per un'attività, DataSync scrive tutti i file nella cartella fornita.

  7. Per impostare la dimensione del blocco o il fattore di replica, scegli Impostazioni aggiuntive. La dimensione del blocco predefinita è 128 MiB e tutte le dimensioni di blocco fornite devono essere un multiplo di 512 byte. Il fattore di replica predefinito è tre DataNodes quando si trasferiscono i dati al cluster HDFS.

  8. Nella sezione Sicurezza, scegli il tipo di autenticazione utilizzato sul tuo cluster HDFS.

    • Semplice: per l'utente, specifica il nome utente con le seguenti autorizzazioni sul cluster HDFS (a seconda del caso d'uso):

      • Se prevedi di utilizzare questa posizione come posizione di origine, specifica un utente che dispone solo delle autorizzazioni di lettura.

      • Se prevedi di utilizzare questa posizione come destinazione, specifica un utente con autorizzazioni di lettura e scrittura.

      Facoltativamente, specificare l'URI del Key Management Server (KMS) del cluster HDFS.

    • Kerberos: specifica Kerberos Principal con accesso al tuo cluster HDFS. Quindi, fornisci il KeyTabfile che contiene il codice principale Kerberos fornito. Quindi, fornisci il file di configurazione Kerberos. Infine, specifica il tipo di protezione crittografica in transito negli elenchi a discesa Protezione RPC e Protezione trasferimento dati.

  9. (Facoltativo) Scegli Aggiungi tag per contrassegnare la tua posizione HDFS.

    I tag sono coppie chiave-valore che facilitano la gestione, il filtraggio e la ricerca delle sedi. È consigliabile creare almeno un tag di nome per la posizione.

  10. Scegli Crea posizione.

Funzionalità HDFS non supportate

Le seguenti funzionalità di HDFS non sono attualmente supportate da: DataSync

  • Transparent Data Encryption (TDE) quando si utilizza l'autenticazione Kerberos

  • Configurazione multipla NameNodes

  • Hadoop HDFS su HTTP (HTTPFS)

  • Liste di controllo accessi POSIX (ACL)

  • Attributi estesi HDFS (xattrs)