Tutorial: Uso de Amazon DynamoDB y Apache Hive - Amazon DynamoDB

Tutorial: Uso de Amazon DynamoDB y Apache Hive

En este tutorial, lanzaremos un clúster de Amazon EMR y, a continuación, usaremos Apache Hive para procesar los datos almacenados en una tabla de DynamoDB.

Hive es una aplicación de almacenamiento de datos para Hadoop que permite procesar y analizar datos de varios orígenes. Hive proporciona un lenguaje similar a SQL, HiveQL, que permite trabajar con datos almacenados localmente en el clúster de Amazon EMR o en un origen de datos externo (como Amazon DynamoDB).

Para obtener más información, consulte el Hive Tutorial.

Antes de empezar

Para este tutorial, necesitará lo siguiente:

  • Una cuenta de AWS. Si no dispone de una, consulte Inscripción en AWS.

  • Un cliente SSH (Secure Shell). El cliente SSH se utiliza para conectarse al nodo líder del clúster de Amazon EMR y ejecutar comandos interactivos. Los clientes SSH están disponibles de forma predeterminada en la mayoría de las instalaciones de Linux, Unix y Mac OS X. Los usuarios de Windows pueden descartar e instalar el cliente PuTTY, que es compatible con SSH.

Siguiente paso

Paso 1: Crear un par de claves de Amazon EC2