Tutorial: Como trabalhar com o Amazon DynamoDB e o Apache Hive
Neste tutorial, você iniciará um cluster do Amazon EMR e, em seguida, usará o Apache Hive para processar os dados armazenados em uma tabela do DynamoDB.
O Hive é uma aplicação de data warehouse para o Hadoop que permite processar e analisar dados de várias fontes diferentes. O Hive oferece uma linguagem semelhante a SQL, HiveQL, que permite trabalhar com dados armazenados localmente no cluster do Amazon EMR ou em uma fonte de dados externa (como o Amazon DynamoDB).
Para obter mais informações, consulte o Tutorial do Hive
Tópicos
Antes de começar
Para este tutorial, você precisará do seguinte:
-
Uma conta da AWS. Se você não tiver uma, consulte Como se cadastrar na AWS.
-
Um cliente SSH (Secure Shell). É possível usar o cliente SSH para se conectar ao nó líder do cluster do Amazon EMR e executar comandos interativos. Os clientes SSH estão disponíveis por padrão na maioria das instalações de Linux, Unix e Mac OS X. Os usuários do Windows podem fazer download e instalar o cliente PuTTY
, que oferece suporte para SSH.
Próxima etapa
Etapa 1: criar um par de chaves do Amazon EC2