Configuración de AWS DataSync transferencias con un clúster HDFS - AWS DataSync

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de AWS DataSync transferencias con un clúster HDFS

Con él AWS DataSync, puede transferir datos entre el clúster del sistema de archivos distribuido de Hadoop (HDFS) y uno de los siguientes servicios de almacenamiento: AWS

Para configurar este tipo de transferencia, cree una ubicación de transferencia para su clúster de HDFS. Puede usar esta ubicación como origen o destino de la transferencia.

Proporcionar DataSync acceso a los clústeres de HDFS

Para conectarse al clúster de HDFS, DataSync utilice un agente que se implemente lo más cerca posible del clúster de HDFS. El DataSync agente actúa como un cliente HDFS y se comunica con el clúster NameNodes y dentro de él DataNodes .

Al iniciar una tarea de transferencia, DataSync consulta las ubicaciones NameNode de los archivos y carpetas del clúster. Si configura la ubicación de HDFS como ubicación de origen, DataSync lee los datos de archivos y carpetas del clúster y copia esos datos DataNodes en el destino. Si configura la ubicación de HDFS como ubicación de destino, DataSync graba los archivos y carpetas del origen DataNodes en el clúster.

Autenticación

Al conectarse a un clúster HDFS, DataSync admite la autenticación simple o la autenticación Kerberos. Para usar una autenticación simple, proporcione el nombre de usuario de un usuario con derechos de lectura y escritura en el clúster de HDFS. Para usar la autenticación Kerberos, proporcione un archivo de configuración de Kerberos, un archivo de tabla de claves de Kerberos (keytab) y un nombre de entidad principal de Kerberos. Las credenciales de la entidad principal de Kerberos deben estar en el archivo keytab proporcionado.

Cifrado

Cuando se utiliza la autenticación Kerberos, DataSync admite el cifrado de los datos a medida que se transmiten entre el DataSync agente y el clúster HDFS. Cifre sus datos mediante los ajustes de configuración de calidad de protección (QOP) del clúster de HDFS y especificando los ajustes de QOP al crear la ubicación de HDFS. La configuración de QOP incluye ajustes para la protección de la transferencia de datos y la protección de llamada a procedimiento remoto (RPC).

DataSync admite los siguientes tipos de cifrado Kerberos:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

También se pueden configurar clústeres de HDFS para el cifrado en reposo mediante el cifrado de datos transparente (TDE). Cuando se utiliza una autenticación simple, DataSync lee y escribe en clústeres habilitados para TDE. Si va DataSync a copiar datos a un clúster compatible con TDE, primero configure las zonas de cifrado del clúster HDFS. DataSync no crea zonas de cifrado.

Características de HDFS no admitidas

Las siguientes capacidades de HDFS no son compatibles DataSync actualmente con:

  • Cifrado de datos transparente (TDE) cuando se utiliza la autenticación Kerberos

  • Configuración de varios NameNodes

  • Hadoop HDFS por HTTP (HttpFS)

  • Listas de control de acceso POSIX () ACLs

  • Atributos extendidos de HDFS (xattrs)

  • Clústeres HDFS que utilizan Apache HBase

Creación de su ubicación de transferencia HDFS

Puede utilizar su ubicación como origen o destino de la DataSync transferencia.

Antes de empezar: compruebe la conectividad de red entre el agente y el clúster de Hadoop de la siguiente manera:

  1. Abra la AWS DataSync consola en https://console.aws.amazon.com/datasync/.

  2. En el panel de navegación situado a la izquierda, expanda Transferencia de datos y, a continuación, seleccione Ubicaciones y Crear ubicación.

  3. En Tipo de ubicación, elija sistema de archivos distribuido de Hadoop (HDFS).

    Puede configurar esta ubicación como origen o destino posteriormente.

  4. En Agentes, elija el agente que se pueda conectar con su clúster de HDFS.

    Puede elegir más de un agente. Para obtener más información, consulte Uso de varios DataSync agentes.

  5. Para NameNode, proporcione el nombre de dominio o la dirección IP del clúster HDFS principal NameNode.

  6. En Carpeta, introduzca una carpeta del clúster HDFS que desee utilizar DataSync para la transferencia de datos.

    Si la ubicación de HDFS es una fuente, DataSync copia los archivos de esta carpeta en el destino. Si su ubicación es un destino, graba DataSync los archivos en esta carpeta.

  7. Para establecer el Tamaño del bloque o el Factor de replicación, seleccione Ajustes adicionales.

    El tamaño de bloque predeterminado es 128 MB. Los tamaños de los bloques que indique deben ser múltiplos de 512 bytes.

    El factor de replicación predeterminado es tres DataNodes cuando se transfiere al clúster HDFS.

  8. En la sección Seguridad, elija el Tipo de autenticación utilizado en el clúster de HDFS.

    • Simple: para el usuario, especifique el nombre de usuario con los siguientes permisos en el clúster de HDFS (según su caso de uso):

      • Si planea usar esta ubicación como ubicación de origen, especifique un usuario que solo tenga permisos de lectura.

      • Si planea usar esta ubicación como ubicación de destino, especifique un usuario que solo tenga permisos de escritura.

      Opcionalmente, especifique el URI de Key Management Server (KMS) del clúster de HDFS.

    • Kerberos: especifique la entidad principal de Kerberos con acceso al clúster de HDFS. A continuación, proporcione el KeyTab archivo que contiene el principal Kerberos proporcionado. A continuación, proporcione el archivo de configuración de Kerberos. Por último, especifique el tipo de protección de cifrado en tránsito en las listas desplegables de Protección RPC y Protección de transferencia de datos.

  9. (Opcional) Seleccione Añadir etiqueta para etiquetar su ubicación de HDFS.

    Las etiquetas son pares de clave-valor que le ayudan a administrar, filtrar y buscar sus recursos de DataSync. Le recomendamos crear al menos una etiqueta de nombre para su ubicación.

  10. Seleccione Crear ubicación.

  1. Copie el siguiente comando create-location-hdfs.

    aws datasync create-location-hdfs --name-nodes [{"Hostname":"host1", "Port": 8020}] \ --authentication-type "SIMPLE|KERBEROS" \ --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example] \ --subdirectory "/path/to/my/data"
  2. Para el --name-nodes parámetro, especifique el nombre de host o la dirección IP del clúster HDFS principal NameNode y el puerto TCP en el que NameNode se escucha.

  3. Para el parámetro --authentication-type, especifique el tipo de autenticación que se utilizará para conectarse al clúster de Hadoop. Puede especificar SIMPLE o KERBEROS.

    Si utiliza la autenticación SIMPLE, utilice el parámetro --simple-user para especificar el nombre de usuario del usuario. Si utiliza la autenticación KERBEROS, utilice los parámetros --kerberos-principal, --kerberos-keytab y --kerberos-krb5-conf. Para obtener más información, consulte create-location-hdfs.

  4. Para el --agent-arns parámetro, especifique el ARN del DataSync agente que se puede conectar al clúster HDFS.

    Puede elegir más de un agente. Para obtener más información, consulte Uso de varios DataSync agentes.

  5. (Opcional) Para el --subdirectory parámetro, especifique una carpeta del clúster HDFS que desee utilizar DataSync para la transferencia de datos.

    Si la ubicación de HDFS es una fuente, DataSync copia los archivos de esta carpeta en el destino. Si su ubicación es un destino, graba DataSync los archivos en esta carpeta.

  6. Ejecute el comando create-location-hdfs.

    Si el comando se ejecuta correctamente, recibirá una respuesta que le mostrará el ARN de la ubicación que creó. Por ejemplo:

    { "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example" }