Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon EMR, versión 5.10.0
Versiones de las aplicaciones de la versión 5.10.0
Esta versión incluye las siguientes aplicaciones: Flink
En la siguiente tabla se enumeran las versiones de la aplicación disponibles en esta versión de Amazon EMR y las versiones de la aplicación en las tres versiones anteriores de Amazon EMR (cuando corresponda).
Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los temas siguientes:
emr-5.10.0 | emr-5.9.1 | emr-5.9.0 | emr-5.8.3 | |
---|---|---|---|---|
AWS SDK for Java | 1.11.221 | 1.11.183 | 1.11.183 | 1.11.160 |
Python | 2.7, 3.4 | No registrado | No registrado | No registrado |
Scala | 2.11.8 | 2.11.8 | 2.11.8 | 2.11.8 |
AmazonCloudWatchAgent | - | - | - | - |
Delta | - | - | - | - |
Flink | 1.3.2 | 1.3.2 | 1.3.2 | 1.3.1 |
Ganglia | 3.7.2 | 3.7.2 | 3.7.2 | 3.7.2 |
HBase | 1.3.1 | 1.3.1 | 1.3.1 | 1.3.1 |
HCatalog | 2.3.1 | 2.3.0 | 2.3.0 | 2.3.0 |
Hadoop | 2.7.3 | 2.7.3 | 2.7.3 | 2.7.3 |
Hive | 2.3.1 | 2.3.0 | 2.3.0 | 2.3.0 |
Hudi | - | - | - | - |
Hue | 4.0.1 | 4.0.1 | 4.0.1 | 3.12.0 |
Iceberg | - | - | - | - |
JupyterEnterpriseGateway | - | - | - | - |
JupyterHub | - | - | - | - |
Livy | 0.4.0 | 0.4.0 | 0.4.0 | - |
MXNet | 0.12.0 | - | - | - |
Mahout | 0.13.0 | 0.13.0 | 0.13.0 | 0.13.0 |
Oozie | 4.3.0 | 4.3.0 | 4.3.0 | 4.3.0 |
Phoenix | 4.11.0 | 4.11.0 | 4.11.0 | 4.11.0 |
Pig | 0.17.0 | 0.17.0 | 0.17.0 | 0.16,0 |
Presto | 0.187 | 0.184 | 0.184 | 0.170 |
Spark | 2.2.0 | 2.2.0 | 2.2.0 | 2.2.0 |
Sqoop | 1.4.6 | 1.4.6 | 1.4.6 | 1.4.6 |
TensorFlow | - | - | - | - |
Tez | 0.8.4 | 0.8.4 | 0.8.4 | 0.8.4 |
Trino (PrestosQL) | - | - | - | - |
Zeppelin | 0.7.3 | 0.7.2 | 0.7.2 | 0.7.2 |
ZooKeeper | 3.4.10 | 3.4.10 | 3.4.10 | 3.4.10 |
Notas de la versión 5.10.0
Las siguientes notas de la versión incluyen información sobre la versión 5.10.0 de Amazon EMR. Los cambios son respecto a la versión 5.9.0 de Amazon EMR.
Actualizaciones
AWS SDK for Java 1.11.221
Hive 2.3.1
Presto 0.187
Nuevas características
Se ha agregado compatibilidad para autenticación Kerberos. Para más información, consulte Uso de la autenticación de Kerberos en la Guía de administración de Amazon EMR
Se ha agregado compatibilidad con los roles de IAM para EMRFS. Para más información, consulte Configurar roles de IAM de solicitudes de EMRFS para Amazon S3 en la Guía de administración de Amazon EMR
Se ha agregado un soporte para los tipos de instancias P2 y P3 basados en GPU. Para obtener más información, consulte Amazon EC2 P2 Instances
e Amazon EC2 P3 Instances. El controlador NVIDIA 384,81 y el controlador CUDA 9.0.176 están instalados en estos tipos de instancias de forma predeterminada. Se agregó compatibilidad con Apache MXNet.
Cambios, mejoras y problemas resueltos
Presto
Se ha añadido compatibilidad con el uso del catálogo de datos de AWS Glue como metastore predeterminado de Hive. Para obtener más información, consulte Uso de Presto con el catálogo de datos de AWS Glue.
Se ha agregado compatibilidad para las funciones geoespaciales
. Se ha agregado compatibilidad con las uniones de derrame en el disco
. Se ha agregado compatibilidad con el conector de Redshift
.
Spark
Se ha adaptado SPARK-20640
, lo que hace que el tiempo de espera de rpc y los reintentos de los valores de registro de reorganización sean configurables mediante las propiedades spark.shuffle.registration.timeout
yspark.shuffle.registration.maxAttempts
.El SPARK-21549
es compatible, lo que corrige un error que se produce al grabar archivos personalizados en ubicaciones que no son HDFS. OutputFormat
Se ha adaptado Hadoop-13270
Se han eliminado las bibliotecas Numpy, Scipy y Matplotlib de la AMI base de Amazon EMR. Si la aplicación requiere estas bibliotecas, están disponibles en el repositorio de aplicaciones, por lo que puede utilizar una acción de arranque para instalarlas en todos los nodos mediante
yum install
.La AMI base de Amazon EMR ya no incluye paquetes RPM de aplicaciones, por lo que los paquetes RPM ya no están presentes en los nodos del clúster. Custom AMIs y la AMI base de Amazon EMR ahora hacen referencia al repositorio de paquetes RPM de Amazon S3.
Gracias a la introducción de la facturación por segundo en Amazon EC2, el comportamiento de reducción predeterminado ahora es Finalizar al finalizar la tarea en lugar de Finalizar a la hora de la instancia. Para obtener más información, consulte Reducción de escala del clúster.
Problemas conocidos
MXNet no incluye bibliotecas OpenCV.
Hive 2.3.1 establece
hive.compute.query.using.stats=true
de forma predeterminada. Esto desemboca en consultas que obtienen datos de las estadísticas existentes en lugar de directamente de los datos, lo que puede dar lugar a confusión. Por ejemplo, si tiene una tabla conhive.compute.query.using.stats=true
y carga nuevos archivos en la tablaLOCATION
, la ejecución de una consultaSELECT COUNT(*)
en la tabla devuelve el recuento de las estadísticas, en lugar de seleccionar las filas añadidas.Para resolver este problema, utilice el comando
ANALYZE TABLE
para recopilar nuevas estadísticas o establezcahive.compute.query.using.stats=false
. Para obtener más información, consulte Statistics in Hiveen la documentación de Apache Hive.
Versiones de los componentes de la versión 5.10.0
A continuación, se muestran los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr
o aws
. Normalmente, los paquetes de aplicación de macrodatos de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que las versiones de la comunidad estén disponibles en Amazon EMR lo más rápido posible.
Algunos componentes de Amazon EMR son distintos de las versiones que se encuentran en la comunidad. Estos componentes tienen una etiqueta de versión con el formato
. La CommunityVersion
-amzn-EmrVersion
empieza por 0. Por ejemplo, si un componente de la comunidad de código abierto llamado EmrVersion
myapp-component
con la versión 2.2 se ha modificado tres veces para incluirlo en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2
.
Componente | Versión | Descripción |
---|---|---|
emr-ddb | 4.5.0 | Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop. |
emr-goodies | 2.4.0 | Bibliotecas especialmente prácticas para el ecosistema de Hadoop. |
emr-kinesis | 3.4.0 | Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop. |
emr-s3-dist-cp | 2.7.0 | Aplicación de copia distribuida optimizada para Amazon S3. |
emrfs | 2.20.0 | Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop. |
flink-client | 1.3.2 | Scripts y aplicaciones de cliente de línea de comando de Apache Flink. |
ganglia-monitor | 3.7.2 | Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia. |
ganglia-metadata-collector | 3.7.2 | Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia. |
ganglia-web | 3.7.1 | Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia. |
hadoop-client | 2.7.3-amzn-5 | Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn". |
hadoop-hdfs-datanode | 2.7.3-amzn-5 | Servicio de nivel de nodos de HDFS para el almacenamiento de bloques. |
hadoop-hdfs-library | 2.7.3-amzn-5 | Biblioteca y cliente de línea de comandos HDFS |
hadoop-hdfs-namenode | 2.7.3-amzn-5 | Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones. |
hadoop-httpfs-server | 2.7.3-amzn-5 | Punto de enlace HTTP para operaciones HDFS. |
hadoop-kms-server | 2.7.3-amzn-5 | Servidor de administración de claves criptográficas basado en la API de Hadoop. KeyProvider |
hadoop-mapred | 2.7.3-amzn-5 | MapReduce bibliotecas de motores de ejecución para ejecutar una aplicación. MapReduce |
hadoop-yarn-nodemanager | 2.7.3-amzn-5 | Servicio de YARN para la administración de contenedores en un nodo individual. |
hadoop-yarn-resourcemanager | 2.7.3-amzn-5 | Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas. |
hadoop-yarn-timeline-server | 2.7.3-amzn-5 | Servicio para recuperar información actual e histórica para aplicaciones de YARN. |
hbase-hmaster | 1.3.1 | Servicio para un HBase clúster responsable de la coordinación de las regiones y la ejecución de los comandos administrativos. |
hbase-region-server | 1.3.1 | Servicio para prestar servicio a una o más HBase regiones. |
hbase-client | 1.3.1 | HBase cliente de línea de comandos. |
hbase-rest-server | 1.3.1 | Servicio que proporciona un punto final RESTful HTTP para. HBase |
hbase-thrift-server | 1.3.1 | Servicio que proporciona un punto final de Thrift para HBase. |
hcatalog-client | 2.3.1-amzn-0 | El cliente de línea de comando "hcat" para manipular hcatalog-server. |
hcatalog-server | 2.3.1-amzn-0 | Prestación de servicios HCatalog, una capa de administración de tablas y almacenamiento para aplicaciones distribuidas. |
hcatalog-webhcat-server | 2.3.1-amzn-0 | Punto final HTTP que proporciona una interfaz REST para HCatalog. |
hive-client | 2.3.1-amzn-0 | Cliente de línea de comando de Hive. |
hive-hbase | 2.3.1-amzn-0 | Hive-hbase client. |
hive-metastore-server | 2.3.1-amzn-0 | Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop. |
hive-server2 | 2.3.1-amzn-0 | Servicio para aceptar consultas de Hive como solicitudes web. |
hue-server | 4.0.1 | Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop |
livy-server | 0.4.0-incubating | Interfaz de REST para interactuar con Apache Spark |
mahout-client | 0.13.0 | Biblioteca para machine learning. |
mxnet | 0.12.0 | Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo. |
mysql-server | 5.5.54+ | Servidor de bases de datos MySQL. |
nvidia-cuda | 9.0.176 | Controladores Nvidia y conjunto de herramientas Cuda |
oozie-client | 4.3.0 | Cliente de línea de comando de Oozie. |
oozie-server | 4.3.0 | Servicio para aceptar solicitudes de flujo de trabajo de Oozie. |
phoenix-library | 4.11.0- -1.3 HBase | Las bibliotecas de Phoenix para servidor y cliente |
phoenix-query-server | 4.11.0- -1.3 HBase | Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica |
presto-coordinator | 0.187 | Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers. |
presto-worker | 0.187 | Service para ejecutar partes de una consulta. |
pig-client | 0.17.0 | Cliente de línea de comando de Pig. |
spark-client | 2.2.0 | Clientes de línea de comando de Spark. |
spark-history-server | 2.2.0 | IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada. |
spark-on-yarn | 2.2.0 | Motor de ejecución en memoria para YARN. |
spark-yarn-slave | 2.2.0 | Bibliotecas de Apache Spark necesarias para esclavos de YARN. |
sqoop-client | 1.4.6 | Cliente de línea de comando de Apache Sqoop. |
tez-on-yarn | 0.8.4 | La aplicación YARN de tez y bibliotecas. |
webserver | 2.4.25+ | Servidor HTTP de Apache. |
zeppelin-server | 0.7.3 | Bloc de notas basado en web que permite el análisis de datos interactivo. |
zookeeper-server | 3.4.10 | Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo. |
zookeeper-client | 3.4.10 | ZooKeeper cliente de línea de comandos. |
Clasificaciones de configuración de la versión 5.10.0
Las clasificaciones de configuración le permiten personalizar las aplicaciones. Suelen corresponder a un archivo XML de configuración para la aplicación como, por ejemplo, hive-site.xml
. Para obtener más información, consulte Configuración de aplicaciones.
Clasificaciones | Descripción |
---|---|
capacity-scheduler | Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop. |
core-site | Cambiar los valores en el archivo core-site.xml de Hadoop. |
emrfs-site | Cambiar la configuración de EMRFS. |
flink-conf | Cambiar la configuración de flink-conf.yaml. |
flink-log4j | Cambiar la configuración de log4j.properties de Flink. |
flink-log4j-yarn-session | Cambie la configuración de Flink log4 j-yarn-session .properties. |
flink-log4j-cli | Cambiar la configuración de log4j-cli.properties de Flink. |
hadoop-env | Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop. |
hadoop-log4j | Cambiar los valores en el archivo log4j.properties de Hadoop. |
hadoop-ssl-server | Cambiar la configuración del servidor ssl de Hadoop |
hadoop-ssl-client | Cambiar la configuración del cliente ssl de Hadoop |
hbase | Configuraciones seleccionadas por Amazon EMR para Apache. HBase |
hbase-env | Cambie los valores en su entorno HBase. |
hbase-log4j | Cambie los valores en el archivo HBase hbase-log4j.properties. |
hbase-metrics | Cambie los valores en el archivo hadoop-metrics2-hbase.properties. HBase |
hbase-policy | Cambie los valores en HBase el archivo hbase-policy.xml. |
hbase-site | Cambie los valores en HBase el archivo hbase-site.xml. |
hdfs-encryption-zones | Configurar zonas de cifrado de HDFS. |
hdfs-site | Cambiar los valores en hdfs-site.xml de HDFS. |
hcatalog-env | Cambie los valores en HCatalog el entorno. |
hcatalog-server-jndi | Cambie los valores en HCatalog jndi.properties. |
hcatalog-server-proto-hive-site | Cambie los valores en .xml HCatalog. proto-hive-site |
hcatalog-webhcat-env | Cambie los valores en el entorno HCat de la HCatalog Web. |
hcatalog-webhcat-log4j2 | Cambie los valores en las propiedades HCatalog HCat log4j2.properties de la Web. |
hcatalog-webhcat-site | Cambie los valores del archivo webhcat-site.xml de la HCatalog WebHCat. |
hive-beeline-log4j2 | Cambiar los valores en el archivo beeline-log4j2.properties de Hive. |
hive-parquet-logging | Cambiar los valores en el archivo parquet-logging.properties de Hive. |
hive-env | Cambiar los valores en el entorno de Hive. |
hive-exec-log4j2 | Cambie los valores en el archivo hive-exec-log 4j2.properties de Hive. |
hive-llap-daemon-log4j2 | Cambie los valores en el archivo 4j2.properties de Hive. llap-daemon-log |
hive-log4j2 | Cambiar los valores en el archivo hive-log4j2.properties de Hive. |
hive-site | Cambiar los valores en el archivo hive-site.xml de Hive. |
hiveserver2-site | Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2. |
hue-ini | Cambiar los valores en el archivo ini de Hue |
httpfs-env | Cambiar los valores en el entorno de HTTPFS. |
httpfs-site | Cambiar los valores en el archivo httpfs-site.xml de Hadoop. |
hadoop-kms-acls | Cambiar los valores en el archivo kms-acls.xml de Hadoop. |
hadoop-kms-env | Cambiar los valores en el entorno de Hadoop KMS. |
hadoop-kms-log4j | Cambiar los valores en el archivo kms-log4j.properties de Hadoop. |
hadoop-kms-site | Cambiar los valores en el archivo kms-site.xml de Hadoop. |
livy-conf | Cambiar los valores en el archivo livy.conf de Livy. |
livy-env | Cambiar los valores en el entorno de Livy. |
livy-log4j | Cambiar la configuración de log4j.properties de Livy. |
mapred-env | Cambie los valores en el entorno de la aplicación MapReduce . |
mapred-site | Cambie los valores en el archivo mapred-site.xml de la MapReduce aplicación. |
oozie-env | Cambiar los valores en el entorno de Oozie. |
oozie-log4j | Cambiar los valores en el archivo oozie-log4j.properties de Oozie. |
oozie-site | Cambiar los valores en el archivo oozie-site.xml de Oozie. |
phoenix-hbase-metrics | Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix. |
phoenix-hbase-site | Cambiar los valores en el archivo hbase-site.xml de Phoenix. |
phoenix-log4j | Cambiar los valores en el archivo log4j.properties de Phoenix. |
phoenix-metrics | Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix. |
pig-properties | Cambiar los valores en el archivo pig.properties de Pig. |
pig-log4j | Cambiar los valores en el archivo log4j.properties de Pig. |
presto-log | Cambiar los valores en el archivo log.properties de Presto. |
presto-config | Cambiar los valores en el archivo config.properties de Presto. |
presto-env | Cambiar valores en el archivo presto-env.sh de Presto. |
presto-node | Cambiar valores en el archivo node.properties de Presto. |
presto-connector-blackhole | Cambiar los valores en el archivo blackhole.properties de Presto. |
presto-connector-cassandra | Cambiar los valores en el archivo cassandra.properties de Presto. |
presto-connector-hive | Cambiar los valores en el archivo hive.properties de Presto. |
presto-connector-jmx | Cambiar los valores en el archivo jmx.properties de Presto. |
presto-connector-kafka | Cambiar los valores en el archivo kafka.properties de Presto. |
presto-connector-localfile | Cambiar los valores en el archivo localfile.properties de Presto. |
presto-connector-mongodb | Cambiar los valores en el archivo mongodb.properties de Presto. |
presto-connector-mysql | Cambiar los valores en el archivo mysql.properties de Presto. |
presto-connector-postgresql | Cambiar los valores en el archivo postgresql.properties de Presto. |
presto-connector-raptor | Cambiar los valores en el archivo raptor.properties de Presto. |
presto-connector-redis | Cambiar los valores en el archivo redis.properties de Presto. |
presto-connector-tpch | Cambiar los valores en el archivo tpch.properties de Presto. |
spark | Configuración de Amazon EMR mantenida para Apache Spark. |
spark-defaults | Cambiar los valores en el archivo spark-defaults.conf de Spark. |
spark-env | Cambiar los valores en el entorno de Spark. |
spark-hive-site | Cambiar los valores en el archivo hive-site.xml de Spark. |
spark-log4j | Cambiar los valores en el archivo log4j.properties de Spark. |
spark-metrics | Cambiar los valores en el archivo metrics.properties de Spark. |
sqoop-env | Cambiar los valores en el entorno de Sqoop. |
sqoop-oraoop-site | Cambie los valores en el archivo oraoop-site.xml de OraOop Sqoop. |
sqoop-site | Cambiar los valores en el archivo sqoop-site.xml de Sqoop. |
tez-site | Cambiar los valores en el archivo tez-site.xml de Tez. |
yarn-env | Cambiar los valores en el entorno de YARN. |
yarn-site | Cambiar los valores en el archivo yarn-site.xml de YARN. |
zeppelin-env | Cambiar los valores en el entorno de Zeppelin. |
zookeeper-config | Cambie los valores en el ZooKeeper archivo zoo.cfg. |
zookeeper-log4j | Cambie los valores en el ZooKeeper archivo log4j.properties. |