Apache HBase - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Apache HBase

HBase es una base de datos distribuida, no relacional y de código abierto desarrollada como parte del proyecto Hadoop de la Apache Software Foundation. HBase se ejecuta sobre Hadoop Distributed File System (HDFS) para ofrecer capacidades de base de datos no relacional para el ecosistema de Hadoop. HBase se incluye en la versión de lanzamiento de Amazon EMR 4.6.0 y posteriores.

HBase funciona a la perfección con Hadoop, comparte su sistema de archivos y sirve como entrada y salida directas al MapReduce marco y al motor de ejecución. HBase también se integra con Apache Hive, lo que permite ejecutar consultas de tipo SQL de tablas HBase, uniones con tablas basadas en Hive y compatibilidad con la conectividad de bases de datos Java (JDBC). Para obtener más información sobre HBase, consulte Apache HBase y la documentación de HBase en el sitio web de Apache. Para ver un ejemplo de cómo usar HBase con Hive, consulte la entrada del blog sobre AWS big data Combine NoSQL y análisis masivamente paralelo con Apache HBase y Apache Hive en Amazon EMR.

Con HBase en Amazon EMR, también puede hacer una copia de seguridad de sus datos de HBase directamente en Amazon Simple Storage Service (Amazon S3) y restaurar a partir de copias de seguridad creadas anteriormente al lanzar un clúster de HBase. Amazon EMR ofrece opciones adicionales para integrarse con Amazon S3 para la persistencia de datos y la recuperación de desastres.

  • HBase en Amazon S3: con Amazon EMR versión 5.2.0 y posteriores, puede utilizar HBase en Amazon S3 para almacenar el directorio raíz de HBase y los metadatos de un clúster directamente en Amazon S3. Posteriormente, puede iniciar un nuevo clúster, que apunte a la ubicación del directorio raíz en Amazon S3. Solo un clúster a la vez puede utilizar la ubicación de HBase en Amazon S3, con la excepción de un clúster de réplicas de lectura. Para obtener más información, consulte HBase en Amazon S3 (modo de almacenamiento de Amazon S3).

  • Réplicas de lectura de HBase: la versión 5.7.0 de Amazon EMR y versiones posteriores con HBase en Amazon S3 admiten los clústeres de réplicas de lectura. Un clúster de réplicas de lectura proporciona acceso de solo lectura a los archivos de almacén y metadatos de un clúster primario para operaciones de solo lectura. Para obtener más información, consulte Uso de un clúster de réplicas de lectura.

  • Instantáneas de HBase: como alternativa a HBase en Amazon S3, con la versión 4.0 y posteriores de EMR, puede crear instantáneas de sus datos de HBase directamente en Amazon S3 y, a continuación, recuperar los datos mediante las instantáneas. Para obtener más información, consulte Uso de instantáneas de HBase.

importante

Para el escalado de clústeres HBase de Amazon EMR, no recomendamos usar el escalado administrado o el escalado con políticas personalizadas con clústeres de HBase.

En la siguiente tabla, se muestra la versión de HBase incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con HBase.

Para ver la versión de los componentes instalados con HBase en esta versión, consulte Versiones de componentes de la versión 7.1.0.

Información sobre la versión de HBase para emr-7.1.0
Etiqueta de versión de Amazon EMR Versión de HBase Componentes instalados con HBase

emr-7.1.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

En la tabla siguiente, se muestra la versión de HBase incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con HBase.

Para ver la versión de los componentes instalados con HBase en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de HBase para emr-6.15.0
Etiqueta de versión de Amazon EMR Versión de HBase Componentes instalados con HBase

emr-6.15.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

nota

Apache HBase HBCK2 es una herramienta operativa independiente para reparar regiones de HBase y tablas del sistema. En la versión 6.1.0 y posteriores de Amazon EMR, el archivo hbase-hbck2.jar se proporciona /usr/lib/hbase-operator-tools/ en el nodo principal. Para obtener más información acerca de cómo crear y utilizar la herramienta, consulte HBase HBCK2.

En la tabla siguiente, se muestra la versión de HBase incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con HBase.

Para ver la versión de los componentes instalados con HBase en esta versión, consulte Versiones de componentes de la versión 5.36.2.

Información sobre la versión de HBase para emr-5.36.2
Etiqueta de versión de Amazon EMR Versión de HBase Componentes instalados con HBase

emr-5.36.2

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server