Tutorial: Uso de Amazon DynamoDB y Apache Hive

En este tutorial, lanzaremos un clúster de Amazon EMR y, a continuación, usaremos Apache Hive para procesar los datos almacenados en una tabla de DynamoDB.

Hive es una aplicación de almacenamiento de datos para Hadoop que permite procesar y analizar datos de varios orígenes. Hive proporciona un lenguaje similar a SQL, HiveQL, que permite trabajar con datos almacenados localmente en el clúster de Amazon EMR o en un origen de datos externo (como Amazon DynamoDB).

Para obtener más información, consulte el Hive Tutorial.

Temas

Antes de empezar

Para este tutorial, necesitará lo siguiente:

Una cuenta de AWS. Si no dispone de una, consulte Cómo crear una Cuenta de AWS.
Un cliente SSH (Secure Shell). El cliente SSH se utiliza para conectarse al nodo líder del clúster de Amazon EMR y ejecutar comandos interactivos. Los clientes SSH están disponibles de forma predeterminada en la mayoría de las instalaciones de Linux, Unix y Mac OS X. Los usuarios de Windows pueden descartar e instalar el cliente PuTTY, que es compatible con SSH.

Siguiente paso

Paso 1: Crear un par de claves de Amazon EC2

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Integración con Amazon EMR

Paso 1: Crear un par de claves de Amazon EC2