Tutorial: Uso de Amazon DynamoDB y Apache Hive
En este tutorial, lanzaremos un clúster de Amazon EMR y, a continuación, usaremos Apache Hive para procesar los datos almacenados en una tabla de DynamoDB.
Hive es una aplicación de almacenamiento de datos para Hadoop que permite procesar y analizar datos de varios orígenes. Hive proporciona un lenguaje similar a SQL, HiveQL, que permite trabajar con datos almacenados localmente en el clúster de Amazon EMR o en un origen de datos externo (como Amazon DynamoDB).
Para obtener más información, consulte el Hive Tutorial
Temas
Antes de empezar
Para este tutorial, necesitará lo siguiente:
-
Una cuenta de AWS. Si no dispone de una, consulte Inscripción en AWS.
-
Un cliente SSH (Secure Shell). El cliente SSH se utiliza para conectarse al nodo líder del clúster de Amazon EMR y ejecutar comandos interactivos. Los clientes SSH están disponibles de forma predeterminada en la mayoría de las instalaciones de Linux, Unix y Mac OS X. Los usuarios de Windows pueden descartar e instalar el cliente PuTTY
, que es compatible con SSH.
Siguiente paso
Paso 1: Crear un par de claves de Amazon EC2