Traitement de données DynamoDB avec Apache Hive sur Amazon EMR - Amazon DynamoDB

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitement de données DynamoDB avec Apache Hive sur Amazon EMR

Amazon DynamoDB est intégré avec Apache Hive, une application d'entreposage de données qui s'exécute sur Amazon EMR. Hive peut lire et écrire des données dans des tables DynamoDB, ce qui vous permet d'effectuer les opérations suivantes :

  • Interroger des données DynamoDB en direct à l'aide d'un langage de type SQL (HiveQL).

  • Copier des données d'une table DynamoDB vers un compartiment Amazon S3, et vice-versa.

  • Copier les données d'une table DynamoDB dans le système de fichiers distribué Hadoop (HDFS) et inversement.

  • Effectuer des opérations de jointure sur des tables DynamoDB.

Présentation

Amazon EMR est un service qui facilite le traitement rapide et économique de grandes quantités de données. Pour utiliser Amazon EMR, vous lancez un cluster géré d'instances Amazon EC2 exécutant l'infrastructure open source Hadoop. Hadoop est une application distribuée qui implémente l' MapReduce algorithme, dans lequel une tâche est mappée à plusieurs nœuds du cluster. Chaque nœud traite le travail qui lui est attribué, en parallèle avec d'autres nœuds. Enfin, les sorties sont réduites sur un seul nœud, ce qui donne le résultat final.

Vous pouvez choisir de lancer votre cluster Amazon EMR de façon à ce qu'il soit permanent ou temporaire :

  • Un cluster permanent s'exécute jusqu'à ce que vous l'arrêtiez. Les clusters permanents sont idéaux pour l'analyse et l'entreposage de données, ainsi que pour toute autre utilisation interactive.

  • Un cluster temporaire s'exécute le temps de traiter un flux de travail, puis s'arrête automatiquement. Les clusters temporaires sont idéaux pour des tâches de traitement périodiques, telles que l'exécution de scripts.

Pour plus d'informations sur l'architecture et l'administration d'Amazon EMR, consultez le Guide de gestion Amazon EMR.

Lorsque vous lancez un cluster Amazon EMR, spécifiez le nombre initial et le type d'instances Amazon EC2. Vous spécifiez également d'autres applications distribuées (en plus de Hadoop) que vous souhaitez exécuter sur le cluster. Ces applications sont Hue, Mahout, Pig, Spark etc.

Pour plus d'informations sur les applications pour Amazon EMR, consultez le Guide de version Amazon EMR.

Selon la configuration du cluster, vous pouvez disposer d'un ou plusieurs des types de nœuds suivants :

  • Nœud leader : gère le cluster en coordonnant la distribution de l' MapReduce exécutable et des sous-ensembles de données brutes vers les groupes d'instances principaux et de tâches. Suit également le statut de chaque tâche exécutée et surveille l'intégrité des groupes d'instances. Un cluster ne contient qu'un seul nœud leader.

  • Nœuds principaux : exécute MapReduce des tâches et stocke les données à l'aide du système de fichiers distribué Hadoop (HDFS).

  • Nœuds de tâches (facultatif) : exécute MapReduce des tâches.