Accedi alle HBase tabelle con Hive - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accedi alle HBase tabelle con Hive

HBasee Apache Hive sono strettamente integrati, consentendoti di eseguire carichi di lavoro di elaborazione parallela di massa direttamente sui dati archiviati in. HBase Per utilizzare Hive conHBase, in genere puoi avviarli sullo stesso cluster. Tuttavia, puoi avviare Hive e HBase su cluster separati. L'esecuzione HBase e Hive separatamente su cluster diversi possono migliorare le prestazioni perché ciò consente a ciascuna applicazione di utilizzare le risorse del cluster in modo più efficiente.

Le seguenti procedure mostrano come connettersi a HBase un cluster utilizzando Hive.

Nota

È possibile connettere un cluster Hive solo a un singolo HBase cluster.

Per connettere Hive a HBase
  1. Crea cluster separati con Hive e HBase installato o crea un singolo cluster con entrambi HBase e Hive installati.

  2. Se utilizzi cluster separati, modifica i gruppi di sicurezza in modo che le porte Hive HBase e Hive siano aperte tra questi due nodi primari.

  3. Utilizzalo SSH per connetterti al nodo primario del cluster su cui è installato Hive. Per ulteriori informazioni, consulta Connect al nodo primario utilizzando SSH nell'Amazon EMR Management Guide.

  4. Avviare la shell Hive con il seguente comando.

    hive
  5. (Facoltativo) Non è necessario eseguire questa operazione se Hive HBase e Hive si trovano sullo stesso cluster. Connetti il HBase client sul tuo cluster Hive al HBase cluster che contiene i tuoi dati. Nell'esempio seguente, public-DNS-name viene sostituito dal DNS nome pubblico del nodo primario del HBase cluster, ad esempio:ec2-50-19-76-67.compute-1.amazonaws.com.

    set hbase.zookeeper.quorum=public-DNS-name;
  6. Procedi con l'esecuzione delle query Hive sui tuoi HBase dati come desideri o consulta la procedura successiva.

Per accedere ai HBase dati da Hive
  • Dopo aver effettuato la connessione tra Hive e HBase i cluster (come mostrato nella procedura precedente), puoi accedere ai dati archiviati nel HBase cluster creando una tabella esterna in Hive.

    L'esempio seguente, quando viene eseguito dal prompt di Hive sul nodo primario, crea una tabella esterna che fa riferimento ai dati memorizzati in una tabella chiamata. HBase inputTable È quindi possibile fare riferimento inputTable nelle istruzioni Hive per interrogare e modificare i dati archiviati nel cluster. HBase

    set hbase.zookeeper.quorum=ec2-107-21-163-157.compute-1.amazonaws.com; create external table inputTable (key string, value string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties ("hbase.columns.mapping" = ":key,f1:col1") tblproperties ("hbase.table.name" = "t1"); select count(key) from inputTable ;

Per un caso d'uso più avanzato e un esempio di combinazione HBase e Hive, consulta il post del AWS Big Data Blog, Combine No SQL and massively parallel analytics using Apache HBase e Apache Hive su Amazon. EMR