

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Configuration des AWS DataSync transferts avec un cluster HDFS
<a name="create-hdfs-location"></a>

Avec AWS DataSync, vous pouvez transférer des données entre votre cluster Hadoop Distributed File System (HDFS) et l'un des services de AWS stockage suivants à l'aide de tâches en mode de base :
+ [Amazon S3](create-s3-location.md)
+ [Amazon EFS](create-efs-location.md)
+ [Serveur FSx de fichiers Amazon pour Windows](create-fsx-location.md)
+ [Amazon FSx pour Lustre](create-lustre-location.md)
+ [Amazon FSx pour OpenZFS](create-openzfs-location.md)
+ [Amazon FSx pour NetApp ONTAP](create-ontap-location.md)

Pour configurer ce type de transfert, vous devez créer un [emplacement](how-datasync-transfer-works.md#sync-locations) pour votre cluster HDFS. Vous pouvez utiliser cet emplacement comme source ou destination de transfert.

## Fournir un DataSync accès aux clusters HDFS
<a name="accessing-hdfs"></a>

Pour vous connecter à votre cluster HDFS, utilisez DataSync un [agent en mode de base que vous déployez](deploy-agents.md) le plus près possible de votre cluster HDFS. L' DataSyncagent agit comme un client HDFS et communique avec le NameNodes et au DataNodes sein de votre cluster.

Lorsque vous lancez une tâche de DataSync transfert, NameNode demande l'emplacement des fichiers et des dossiers du cluster. Si vous configurez votre emplacement HDFS comme emplacement source, DataSync lit les données des fichiers et des dossiers depuis votre cluster et copie ces données vers la destination. DataNodes Si vous configurez votre emplacement HDFS comme emplacement de destination, il DataSync écrit les fichiers et les dossiers de la source vers le contenu DataNodes de votre cluster.

### Authentification
<a name="accessing-hdfs-authentication"></a>

Lors de la connexion à un cluster HDFS, DataSync prend en charge l'authentification simple ou l'authentification Kerberos. Pour utiliser l'authentification simple, indiquez le nom d'utilisateur d'un utilisateur autorisé à lire et à écrire sur le cluster HDFS. Pour utiliser l'authentification Kerberos, fournissez un fichier de configuration Kerberos, un fichier de table de clés Kerberos (keytab) et un nom principal Kerberos. Les informations d'identification du principal Kerberos doivent figurer dans le fichier keytab fourni.

### Chiffrement
<a name="accessing-hdfs-encryption"></a>

Lorsque vous utilisez l'authentification Kerberos, DataSync prend en charge le chiffrement des données lors de leur transmission entre l' DataSync agent et votre cluster HDFS. Chiffrez vos données en utilisant les paramètres de configuration de qualité de protection (QOP) de votre cluster HDFS et en spécifiant les paramètres QOP lors de la création de votre emplacement HDFS. La configuration QOP inclut les paramètres de protection du transfert de données et de protection RPC (Remote Procedure Call). 

**DataSync prend en charge les types de chiffrement Kerberos suivants :**
+ `des-cbc-crc`
+ `des-cbc-md4`
+ `des-cbc-md5`
+ `des3-cbc-sha1`
+ `arcfour-hmac`
+ `arcfour-hmac-exp`
+ `aes128-cts-hmac-sha1-96`
+ `aes256-cts-hmac-sha1-96`
+ `aes128-cts-hmac-sha256-128`
+ `aes256-cts-hmac-sha384-192`
+ `camellia128-cts-cmac`
+ `camellia256-cts-cmac`

Vous pouvez également configurer des clusters HDFS pour le chiffrement au repos à l'aide du chiffrement transparent des données (TDE). Lors de l'utilisation de l'authentification simple, DataSync lit et écrit sur des clusters compatibles TDE. Si vous utilisez DataSync pour copier des données vers un cluster compatible TDE, configurez d'abord les zones de chiffrement sur le cluster HDFS. DataSync ne crée pas de zones de chiffrement. 

## Fonctionnalités HDFS non prises en charge
<a name="hdfs-unsupported-features"></a>

Les fonctionnalités HDFS suivantes ne sont actuellement pas prises en charge par DataSync :
+ Chiffrement transparent des données (TDE) lors de l'utilisation de l'authentification Kerberos
+ Configuration de plusieurs NameNodes
+ Hadoop HDFS sur HTTP (HttpFS)
+ listes de contrôle d'accès POSIX () ACLs
+ Attributs étendus HDFS (xattrs)
+ Clusters HDFS utilisant Apache HBase

## Création de votre emplacement de transfert HDFS
<a name="create-hdfs-location-how-to"></a>

Vous pouvez utiliser votre position comme source ou destination pour votre DataSync transfert.

**Avant de commencer** : vérifiez la connectivité réseau entre votre agent et le cluster Hadoop en procédant comme suit :
+ Testez l'accès aux ports TCP répertoriés dans[Exigences réseau pour le stockage sur site, autogéré et autre stockage dans le cloud](datasync-network.md#on-premises-network-requirements).
+ Testez l'accès entre votre agent local et votre cluster Hadoop. Pour obtenir des instructions, veuillez consulter [Vérification de la connexion de votre agent à votre système de stockage](test-agent-connections.md#self-managed-storage-connectivity).

### Utilisation de la DataSync console
<a name="create-hdfs-location-how-to-console"></a>

1. Ouvrez la AWS DataSync console à l'adresse [https://console.aws.amazon.com/datasync/](https://console.aws.amazon.com/datasync/).

1. Dans le volet de navigation de gauche, développez **Transfert de données**, puis choisissez **Locations** et **Create location**.

1. Pour le **type d'emplacement**, choisissez **Hadoop Distributed File System (HDFS)**.

   Vous pouvez configurer cet emplacement comme source ou destination ultérieurement. 

1. Pour les **agents**, choisissez l'agent qui peut se connecter à votre cluster HDFS.

   Vous pouvez choisir plusieurs agents. Pour de plus amples informations, veuillez consulter [Utilisation de plusieurs DataSync agents](do-i-need-datasync-agent.md#multiple-agents).

1. Pour **NameNode**, indiquez le nom de domaine ou l'adresse IP du cluster HDFS principal NameNode de votre cluster HDFS.

1. Dans le **champ Dossier**, entrez le dossier de votre cluster HDFS que vous souhaitez utiliser DataSync pour le transfert de données.

   Si votre emplacement HDFS est une source, DataSync copie les fichiers de ce dossier vers la destination. Si votre emplacement est une destination, DataSync écrit des fichiers dans ce dossier.

1. Pour définir la **taille du bloc** ou le **facteur de réplication**, sélectionnez **Paramètres supplémentaires**.

   La taille de bloc par défaut est de 128 MiB. La taille de bloc que vous indiquez doit être un multiple de 512 octets.

   Le facteur de réplication par défaut est de trois DataNodes lors du transfert vers le cluster HDFS. 

1. Dans la section **Sécurité**, choisissez le **type d'authentification** utilisé sur votre cluster HDFS. 
   + **Simple** — Pour **l'utilisateur**, spécifiez le nom d'utilisateur avec les autorisations suivantes sur le cluster HDFS (en fonction de votre cas d'utilisation) :
     + Si vous envisagez d'utiliser cet emplacement comme emplacement source, spécifiez un utilisateur disposant uniquement d'autorisations de lecture.
     + Si vous prévoyez d'utiliser cet emplacement comme emplacement de destination, spécifiez un utilisateur disposant d'autorisations de lecture et d'écriture.

     Spécifiez éventuellement l'URI du serveur de gestion des clés (KMS) de votre cluster HDFS. 
   + **Kerberos** — Spécifiez le **principal** Kerberos ayant accès à votre cluster HDFS. Indiquez ensuite le **KeyTabfichier** contenant le principal Kerberos fourni. Fournissez ensuite le fichier de **configuration Kerberos**. Enfin, spécifiez le type de chiffrement pour la protection du transit dans les listes déroulantes **Protection RPC et Protection** **contre le transfert de données**.

1. (Facultatif) Choisissez **Ajouter une balise** pour baliser votre emplacement HDFS.

   Les *tags* sont des paires clé-valeur qui vous permettent de gérer, de filtrer et de rechercher vos emplacements. Nous vous recommandons de créer au moins une balise de nom pour votre emplacement. 

1. Choisissez **Créer un emplacement**.

### À l'aide du AWS CLI
<a name="create-location-hdfs-cli"></a>

1. Copiez la `create-location-hdfs` commande suivante.

   ```
   aws datasync create-location-hdfs --name-nodes [{"Hostname":"host1", "Port": 8020}] \
       --authentication-type "SIMPLE|KERBEROS" \
       --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example] \
       --subdirectory "/path/to/my/data"
   ```

1. Pour le `--name-nodes` paramètre, spécifiez le nom d'hôte ou l'adresse IP du principal de votre cluster HDFS NameNode et le port TCP sur lequel il écoute NameNode .

1. Pour le `--authentication-type` paramètre, spécifiez le type d'authentification à utiliser lors de la connexion au cluster Hadoop. Vous pouvez spécifier `SIMPLE` ou `KERBEROS`.

   Si vous utilisez `SIMPLE` l'authentification, utilisez le `--simple-user` paramètre pour spécifier le nom d'utilisateur de l'utilisateur. Si vous utilisez `KERBEROS` l'authentification, utilisez les `--kerberos-principal` `--kerberos-krb5-conf` paramètres`--kerberos-keytab`, et. Pour de plus amples informations, veuillez consulter [create-location-hdfs](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/datasync/create-location-hdfs.html).

1. Pour le `--agent-arns` paramètre, spécifiez l'ARN de l' DataSync agent qui peut se connecter à votre cluster HDFS.

   Vous pouvez choisir plusieurs agents. Pour de plus amples informations, veuillez consulter [Utilisation de plusieurs DataSync agents](do-i-need-datasync-agent.md#multiple-agents).

1. (Facultatif) Pour le `--subdirectory` paramètre, spécifiez le dossier de votre cluster HDFS que vous souhaitez utiliser DataSync pour le transfert de données.

   Si votre emplacement HDFS est une source, DataSync copie les fichiers de ce dossier vers la destination. Si votre emplacement est une destination, DataSync écrit des fichiers dans ce dossier.

1. Exécutez la commande `create-location-hdfs`.

   Si la commande aboutit, vous obtenez une réponse indiquant l'ARN de l'emplacement que vous avez créé. Par exemple :

   ```
   {
       "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example"
   }
   ```