

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Étape 4 : charger des données dans HDFS
<a name="EMRforDynamoDB.Tutorial.LoadDataIntoHDFS"></a>

Dans cette étape, vous allez copier un fichier de données dans Hadoop Distributed File System (HDFS), puis créer une table Hive externe qui mappe à ce fichier de données.

**Télécharger l’échantillon de données**

1. Téléchargez l’archive de l’échantillon de données (`features.zip`) :

   ```
   wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
   ```

1. Extrayez le fichier `features.txt` de l’archive :

   ```
   unzip features.zip
   ```

1. Affichez les premières lignes du fichier `features.txt` :

   ```
   head features.txt
   ```

   Le résultat doit ressembler à ceci :

   ```
   1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794
   875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7
   1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10
   26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681
   1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605
   1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558
   1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024
   533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0
   829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671
   541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98
   ```

   [Le `features.txt` fichier contient un sous-ensemble de données du Bureau des noms géographiques des États-Unis d'Amérique (http://geonames.usgs). gov/domestic/download](http://geonames.usgs.gov/domestic/download_data.htm)\$1data.htm). Les champs de chaque ligne représentent les éléments suivants :
   + ID de fonction (identifiant unique)
   + Nom
   + Classe (lac, forêt, rivière, etc.)
   + State
   + Latitude (degrés)
   + Longitude (degrés)
   + Altitude (pieds)

1. A partir d’une invite de commande, entrez la commande suivante :

   ```
   hive
   ```

   L’invite de commande devient : `hive>`. 

1. Entrez l’instruction HiveQL suivante pour créer une table Hive native :

   ```
   CREATE TABLE hive_features
       (feature_id             BIGINT,
       feature_name            STRING ,
       feature_class           STRING ,
       state_alpha             STRING,
       prim_lat_dec            DOUBLE ,
       prim_long_dec           DOUBLE ,
       elev_in_ft              BIGINT)
       ROW FORMAT DELIMITED
       FIELDS TERMINATED BY '|'
       LINES TERMINATED BY '\n';
   ```

1. Entrez l’instruction HiveQL suivante pour charger la table avec les données :

   ```
   LOAD DATA
   LOCAL
   INPATH './features.txt'
   OVERWRITE
   INTO TABLE hive_features;
   ```

1. Vous avez maintenant une table Hive native remplie des données du fichier `features.txt`. Pour vérifier, entrez l’instruction HiveQL suivante :

   ```
   SELECT state_alpha, COUNT(*)
   FROM hive_features
   GROUP BY state_alpha;
   ```

   La sortie doit afficher une liste d’États et le nombre d’entités géographiques dans chacun d’eux.

**Étape suivante**  
[Étape 5 : copier des données dans DynamoDB](EMRforDynamoDB.Tutorial.CopyDataToDDB.md)