Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de AWS DataSync transferencias desde HDFS
Para transferir datos desde el sistema de archivos distribuido Hadoop Distributed File System (HDFS), debe crear una AWS DataSync ubicación de transferencia.
Acceso a los clústeres de HDFS
Para conectarse al clúster de HDFS, DataSync utiliza un agente que se implementa cerca del clúster de HDFS. Para obtener más información sobre DataSync los agentes, consulteTrabajando con AWS DataSync agentes. El DataSync agente actúa como un cliente de HDFS y se comunica con los clústeres NameNodes y dentro DataNodes de ellos.
Al iniciar una tarea, DataSync consulta las ubicaciones NameNode de los archivos y carpetas del clúster. Si la ubicación de HDFS está configurada como fuente, DataSync lee los datos de archivos y carpetas del clúster y los copia DataNodes en el destino. Si la ubicación de HDFS está configurada como destino, entonces DataSync escribe los archivos y carpetas del destino al DataNodes clúster. Antes de ejecutar la DataSync tarea, compruebe la conectividad del agente con el clúster HDFS. Para obtener más información, consulte Probar la conexión de su agente a un sistema de almacenamiento.
Autenticación
Al conectarse a un clúster HDFS, DataSync admite la autenticación simple o la autenticación Kerberos. Para utilizar la autenticación simple, proporcione el nombre de usuario de un usuario con derechos de lectura y escritura en el clúster HDFS. Para utilizar la autenticación Kerberos, proporcione un archivo de configuración de Kerberos, un archivo de tabla de claves de Kerberos (keytab) y un nombre principal de Kerberos. Las credenciales del principal de Kerberos deben estar en el archivo keytab proporcionado.
Encryption (Cifrado)
Cuando se utiliza la autenticación Kerberos, DataSync admite el cifrado de los datos a medida que se transmiten entre el DataSync agente y el clúster de HDFS. Cifre sus datos mediante los ajustes de configuración de calidad de protección (QOP) del clúster de HDFS y especificando los ajustes de QOP al crear su ubicación de HDFS. La configuración de QOP incluye ajustes para la protección de transferencia de datos y la protección de llamada a procedimiento remoto (RPC).
DataSyncadmite los siguientes tipos de cifrado Kerberos:
-
des-cbc-crc
-
des-cbc-md4
-
des-cbc-md5
-
des3-cbc-sha1
-
arcfour-hmac
-
arcfour-hmac-exp
-
aes128-cts-hmac-sha1-96
-
aes256-cts-hmac-sha1-96
-
aes128-cts-hmac-sha256-128
-
aes256-cts-hmac-sha384-192
-
camellia128-cts-cmac
-
camellia256-cts-cmac
Además, puede configurar clústeres de HDFS para el cifrado en reposo mediante el cifrado de datos transparente (TDE). Cuando se utiliza la autenticación simple, DataSync lee y escribe en clústeres habilitados para TDE. Si va DataSync a copiar datos a un clúster compatible con TDE, primero configure las zonas de cifrado en el clúster HDFS. DataSyncno crea zonas de cifrado.
Creación de su ubicación de transferencia de HDFS
Configura una ubicación en la que puedas usar una fuente para la DataSync transferencia.
Antes de empezar: compruebe la conectividad de red entre su agente y el clúster de Hadoop de la siguiente manera:
-
Pruebe el acceso a los puertos TCP que figuran en Requisitos de red para sistemas de almacenamiento autogestionados.
-
Pruebe el acceso entre su agente local y su clúster de Hadoop. Para obtener instrucciones, consulte Probar la conexión de su agente a un sistema de almacenamiento.
Para crear una ubicación HDFS mediante la consola DataSync
Abra la AWS DataSync consola en https://console.aws.amazon.com/datasync/
. -
En el panel de navegación izquierdo, expande Transferencia de datos y, a continuación, selecciona Ubicaciones y Crear ubicación.
-
Para el tipo de ubicación, elija Hadoop Distributed File System (HDFS). Puede configurar esta ubicación como origen o destino más adelante.
-
En el caso de los agentes, elija uno o más agentes que desee utilizar de la lista de agentes disponibles. El agente se conecta a su clúster HDFS para transferir datos de forma segura entre el clúster HDFS y. DataSync
-
Para NameNode, proporcione el nombre de dominio o la dirección IP del clúster HDFS principalNameNode.
-
En Carpeta, introduzca la carpeta del clúster HDFS que DataSync se utilizará para la transferencia de datos. Cuando la ubicación se usa como fuente para una tarea, DataSync copia los archivos de la carpeta proporcionada. Cuando se usa su ubicación como destino de una tarea, DataSync escribe todos los archivos en la carpeta proporcionada.
-
Para establecer el tamaño del bloque o el factor de replicación, seleccione Configuración adicional. El tamaño de bloque predeterminado es de 128 MiB y cualquier tamaño de bloque proporcionado debe ser un múltiplo de 512 bytes. El factor de replicación predeterminado es tres DataNodes cuando se transfieren datos al clúster HDFS.
-
En la sección Seguridad, elija el tipo de autenticación utilizado en el clúster HDFS.
-
Sencillo: para el usuario, especifique el nombre de usuario con los siguientes permisos en el clúster HDFS (según su caso de uso):
-
Si piensa utilizar esta ubicación como ubicación de origen, especifique un usuario que solo tenga permisos de lectura.
-
Si piensa utilizar esta ubicación como ubicación de destino, especifique un usuario que tenga permisos de lectura y escritura.
De manera opcional, especifique el URI del servidor de administración de claves (KMS) del clúster HDFS.
-
-
Kerberos: especifique el Kerberos Principal con acceso a su clúster HDFS. A continuación, proporcione el KeyTabarchivo que contiene el principal de Kerberos proporcionado. A continuación, proporcione el archivo de configuración de Kerberos. Por último, especifique el tipo de cifrado en la protección de tránsito en las listas desplegables de protección de RPC y Protección de transferencia de datos.
-
-
(Opcional) Elija Agregar etiqueta para etiquetar su ubicación de HDFS.
Las etiquetas son pares de clave-valor que lo ayudan a administrar, filtrar y buscar sus ubicaciones. Le recomendamos crear al menos una etiqueta de nombre para su ubicación.
-
Elige Crear ubicación.
Funciones de HDFS no compatibles
Las siguientes capacidades de HDFS no son compatibles actualmente con: DataSync
-
Cifrado de datos transparente (TDE) cuando se utiliza la autenticación Kerberos
-
Configuración de varios NameNodes
-
Hadoop HDFS sobre HTTP (HttpFS)
-
Listas de control de acceso (ACL) POSIX
-
Atributos extendidos de HDFS (xattrs)