Apache HBase - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Apache HBase

HBasees una base de datos distribuida, no relacional y de código abierto desarrollada como parte del proyecto Hadoop de la Apache Software Foundation. HBase se ejecuta sobre el sistema de archivos distribuido Hadoop (HDFS) para proporcionar capacidades de bases de datos no relacionales para el ecosistema de Hadoop. HBase se incluye en la versión 4.6.0 y posteriores de Amazon EMR.

HBase funciona a la perfección con Hadoop, ya que comparte su sistema de archivos y sirve como entrada y salida directas al MapReduce marco y al motor de ejecución. HBase también se integra con Apache Hive, lo que permite realizar consultas similares a las de SQL sobre HBase tablas, combinarlas con tablas basadas en Hive y es compatible con la conectividad de bases de datos Java (JDBC). Para obtener más información HBase, consulte Apache y la documentación en el sitio web de Apache HBase. HBase Para ver un ejemplo de cómo usarlo HBase con Hive, consulte la entrada del blog sobre AWS big data Combine NoSQL y análisis masivamente paralelo con HBase Apache y Apache Hive en Amazon EMR.

Con HBase Amazon EMR, también puede hacer copias de seguridad de sus HBase datos directamente en Amazon Simple Storage Service (Amazon S3) y restaurarlos a partir de una copia de seguridad creada anteriormente al lanzar un clúster. HBase Amazon EMR ofrece opciones adicionales para integrarse con Amazon S3 para la persistencia de datos y la recuperación de desastres.

  • HBase en Amazon S3: con Amazon EMR versión 5.2.0 y versiones posteriores, puede utilizarlo en Amazon HBase S3 para almacenar el directorio HBase raíz y los metadatos de un clúster directamente en Amazon S3. Posteriormente, puede iniciar un nuevo clúster, que apunte a la ubicación del directorio raíz en Amazon S3. Solo un clúster a la vez puede usar la HBase ubicación en Amazon S3, con la excepción de un clúster de lectura y réplica. Para obtener más información, consulte HBase en Amazon S3 (modo de almacenamiento de Amazon S3).

  • HBase réplicas de lectura: la versión 5.7.0 y posteriores de Amazon EMR, incluida en Amazon HBase S3, admite clústeres de réplica y lectura. Un clúster de réplicas de lectura proporciona acceso de solo lectura a los archivos de almacén y metadatos de un clúster primario para operaciones de solo lectura. Para obtener más información, consulte Uso de un clúster de réplicas de lectura.

  • HBase Instantáneas: como alternativa a HBase Amazon S3, con la versión 4.0 de EMR y versiones posteriores, puede crear instantáneas de HBase sus datos directamente en Amazon S3 y, a continuación, recuperarlos con las instantáneas. Para obtener más información, consulte Uso de instantáneas HBase .

importante

Para el escalado de HBase clústeres de Amazon EMR, no recomendamos utilizar el escalado gestionado ni el escalado con políticas personalizadas con clústeres. HBase

En la siguiente tabla se muestra la versión HBase incluida en la última versión de la serie Amazon EMR 7.x, junto con los componentes con los que se instala Amazon EMR. HBase

Para ver la versión de los componentes que se incluyen HBase en esta versión, consulte Versiones de componentes de la versión 7.7.0.

HBase información sobre la versión de emr-7.7.0
Etiqueta de versión de Amazon EMR HBase Versión Componentes instalados con HBase

emr-7.7.0

HBase 2.6.1

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

En la siguiente tabla se muestra la versión HBase incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes con los que se instala Amazon EMR. HBase

Para ver la versión de los componentes que se incluyen HBase en esta versión, consulte Versiones de componentes de la versión 6.15.0.

HBase información sobre la versión de emr-6.15.0
Etiqueta de versión de Amazon EMR HBase Versión Componentes instalados con HBase

emr-6.15.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

nota

Apache HBase HBCK2 es una herramienta operativa independiente para reparar HBase regiones y tablas del sistema. En la versión 6.1.0 y posteriores de Amazon EMR, el archivo hbase-hbck2.jar se proporciona en /usr/lib/hbase-operator-tools/ en el nodo principal. Para obtener más información sobre cómo crear y utilizar la herramienta, consulte HBaseHBCK2.

En la siguiente tabla se muestra la versión HBase incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes con los que se instala Amazon EMR. HBase

Para ver la versión de los componentes que se incluyen HBase en esta versión, consulte Versiones de componentes de la versión 5.36.2.

HBase información sobre la versión de emr-5.36.2
Etiqueta de versión de Amazon EMR HBase Versión Componentes instalados con HBase

emr-5.36.2

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server