Usar o driver JDBC do Hive - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usar o driver JDBC do Hive

Você pode usar ferramentas conhecidas de business intelligence, como Microsoft Excel, MicroStrategy, QlikView e Tableau, com o Amazon EMR para explorar e visualizar seus dados. Muitas dessas ferramentas exigem um driver JDBC (Java Database Connectivity) ou ODBC (Open Database Connectivity). O Amazon EMR é compatível com as conectividades do JDBC e do ODBC.

O exemplo abaixo demonstra o uso do SQL Workbench/J como um cliente SQL para conexão a um cluster do Hive no Amazon EMR. Para drivers adicionais, consulte Usar ferramentas de inteligência comercial com o Amazon EMR.

Antes de instalar e trabalhar com o SQL Workbench/J, faça download do pacote de driver e instale o driver. Os drivers incluídos no pacote são compatíveis com as versões do Hive disponíveis nas versões 4.0 e posteriores do Amazon EMR. Para obter notas de release e documentação detalhadas, consulte a documentação do PDF incluída no pacote.

Para instalar e configurar o SQL Workbench
  1. Faça o download do cliente do SQL Workbench/J para o seu sistema operacional de http://www.sql-workbench.net/downloads.html.

  2. Instale o SQL Workbench/J. Para obter mais informações, consulte Instalar e iniciar o SQL Workbench/J (apenas em inglês) no SQL Workbench/J User's Manual.

  3. Usuários do Linux, Unix, Mac OS X: em uma sessão de terminal, crie um túnel de SSH para o nó principal do cluster usando o comando a seguir. Substitua master-public-dns-name pelo nome DNS público do nó principal e o path-to-key-file pelo local e nome do arquivo da chave privada do Amazon EC2 (.pem).

    ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10000:localhost:10000 hadoop@master-public-dns-name

    Usuários do Windows: em uma sessão do PuTTY, crie um túnel SSH para o nó principal do cluster (usando o encaminhamento de porta local) com 10000 para Porta de origem e master-public-dns-name:10000 para Destino. Substitua master-public-dns-name pelo nome DNS público do nó principal.

  4. Adicione o driver do JDBC ao SQL Workbench.

    1. Na caixa de diálogo Select Connection Profile (Selecionar perfil de conexão), clique em Manage Drivers (Gerenciar drivers).

    2. Clique no ícone Create a new entry (Criar uma nova entrada) (página em branco).

    3. No campo Name (Nome), digite Hive JDBC.

    4. Em Library (Biblioteca), clique no ícone Select the JAR file(s) (Selecionar os arquivos JAR).

    5. Navegue até o local que contém os drivers extraídos. Selecione os drivers incluídos na versão do pacote de drivers JDBC que você baixou e clique em Abrir.

      Por exemplo, seu pacote de drivers JDBC pode incluir os JARs a seguir.

      hive_metastore.jar hive_service.jar HiveJDBC41.jar libfb303-0.9.0.jar libthrift-0.9.0.jar log4j-1.2.14.jar ql.jar slf4j-api-1.5.11.jar slf4j-log4j12-1.5.11.jar TCLIServiceClient.jar zookeeper-3.4.6.jar
    6. Na caixa de diálogo Please select one driver (Selecione um driver), selecione com.amazon.hive.jdbc41.HS2DriverOK.

  5. Quando você retornar para a caixa de diálogo Manage Drivers (Gerenciar drivers), verifique se o campo Classname (Nome da classe) está preenchido e selecione OK.

  6. Quando você retornar para a caixa de diálogo Select Connection Profile (Selecionar perfil de conexão), verifique se o campo Driver está definido como Hive JDBC (JDBC do Hive) e forneça a string de conexão do JDBC no campo URL: jdbc:hive2://localhost:10000/default.

  7. Selecione OK para conectar. Depois que a conexão estiver concluída, os detalhes da conexão irão aparecer na parte superior da janela do SQL Workbench/J.

Para obter mais informações sobre como usar o Hive e a interface do JDBC, consulte HiveClient e HiveJDBCInterface na documentação do Apache Hive.