Consideraciones Anule la JVM Puertos de servicio Usuarios de la aplicación

Configuración de aplicaciones para utilizar una máquina virtual de Java específica

EMRLas versiones de Amazon tienen diferentes versiones predeterminadas de Java Virtual Machine (JVM). En esta página se explica la JVM compatibilidad con diferentes versiones y aplicaciones.

Consideraciones

Para obtener información sobre las versiones de Java compatibles con las aplicaciones, consulte las páginas de aplicaciones de la Amazon EMR Release Guide.

Amazon EMR solo admite la ejecución de una versión de tiempo de ejecución en un clúster y no admite la ejecución de diferentes nodos o aplicaciones en diferentes versiones de tiempo de ejecución del mismo clúster.
En Amazon EMR 7.x, la máquina virtual Java predeterminada (JVM) es Java 17 para las aplicaciones compatibles con Java 17, con la excepción de Apache Livy. Para obtener más información sobre las JDK versiones compatibles de las aplicaciones, consulta la página de lanzamiento correspondiente en la Guía de versiones de AmazonEMR.
A partir de Amazon EMR 7.1.0, Flink admite y está configurado en Java 17 de forma predeterminada. Para usar una versión diferente del tiempo de ejecución de Java, anule la configuración de flink-conf. Para obtener más información sobre cómo configurar Flink para que utilice Java 8 o Java 11, consulte Configurar Flink para que se ejecute con Java 11.
Para Amazon EMR 5.x y 6.x, la máquina virtual Java predeterminada (JVM) es Java 8.
- Para las EMR versiones 6.12.0 y posteriores de Amazon, algunas aplicaciones también son compatibles con Java 11 y 17.
- Para las EMR versiones 6.9.0 y superiores de Amazon, Trino es compatible con Java 17 de forma predeterminada. Para obtener más información sobre Java 17 con Trino, consulte Trino updates to Java 17 en el blog de Trino.

Tenga en cuenta las siguientes consideraciones específicas de la aplicación al elegir la versión del tiempo de ejecución:

Notas de configuración de Java específicas de aplicaciones
Aplicación	Notas de configuración de Java
Spark	Para ejecutar Spark con una versión de Java no predeterminada, debe configurar tanto Spark como Hadoop. Para ver ejemplos, consulta Anule la JVM. Configure `JAVA_HOME` en `spark-env` para actualizar el tiempo de ejecución de Java de los procesos de la instancia principal. Por ejemplo, spark-submit, spark-shell y el servidor de historial de Spark. Modifique la configuración de Hadoop para actualizar el tiempo de ejecución de Java de los ejecutores de Spark y el YARN `ApplicationMaster`
Spark RAPIDS	Puede ejecutarlo RAPIDS con la versión Java configurada para Spark.
Iceberg	Puede ejecutar Iceberg con la versión de Java configurada de la aplicación que lo utiliza.
Delta	Puede ejecutar Delta con la versión Java configurada de la aplicación que la utiliza.
Hudi	Puede ejecutar Hudi con la versión Java configurada de la aplicación que la utiliza.
Hadoop	Para actualizarlo JVM para Hadoop, modifíquelo. `hadoop-env` Para ver ejemplos, consulta Anule la JVM.
Hive	Para establecer la versión de Java en 11 o 17 para Hive, configure la JVM configuración de Hadoop en función de la versión de Java que desee utilizar.
HBase	Para actualizar el formulario, JVM modifíqueloHBase. `hbase-env` De forma predeterminada, Amazon lo EMR establece en HBase JVM función de la JVM configuración de Hadoop, a menos que se anule la configuración de. `hbase-env` Para ver ejemplos, consulta Anule la JVM.
Flink	Para actualizarlo JVM para Flink, modifíquelo. `flink-conf` De forma predeterminada, Amazon EMR establece el Flink en JVM función de la JVM configuración de Hadoop, a menos que anules la configuración de. `flink-conf` Para obtener más información, consulte Configuración de Flink para que se ejecute con Java 11.
Oozie	A fin de configurar Oozie para que se ejecute en Java 11 o 17, configure el servidor de Oozie, Oozie LauncherAM Launcher AM y cambie las configuraciones de los trabajos y los ejecutables del cliente. También puede configurar `EmbeddedOozieServer` para que se ejecute en Java 17. Para obtener más información, consulte Configurar la versión Java para Oozie.
Pig	Pig solo es compatible con Java 8. No puede usar Java 11 ni 17 con Hadoop y ejecutar Pig en el mismo clúster.

Anule la JVM

Para anular la JVM configuración de una EMR versión de Amazon (por ejemplo, para usar Java 17 con un clúster que utilice la EMR versión 6.12.0 de Amazon), introduzca la JAVA_HOME configuración en su clasificación de entorno, que es application-env para todas las aplicaciones excepto Flink. En el caso de Flink, la clasificación de entorno es flink-conf. Para ver los pasos de configuración del tiempo de ejecución de Java con Flink, consulte Configuración de Flink para que se ejecute con Java 11.

Temas

Anule la configuración con Apache Spark JVM
Anule la configuración con Apache JVM HBase
Anule la JVM configuración con Apache Hadoop y Hive

Anule la configuración con Apache Spark JVM

Cuando usas Spark con las EMR versiones 6.12 y posteriores de Amazon, si escribes un controlador para su envío en modo clúster, el controlador usa Java 8, pero puedes configurar el entorno para que los ejecutores usen Java 11 o 17. Y cuando usas Spark con EMR versiones de Amazon anteriores a 5.x y escribes un controlador para enviarlo en modo clúster, el controlador usa Java 7. Sin embargo, defina el entorno para asegurarse de que los ejecutores utilizan Java 8.

Para sustituir la JVM de Spark, te recomendamos que establezcas las clasificaciones de Hadoop y Spark.


{
"Classification": "hadoop-env", 
        "Configurations": [
            {
"Classification": "export", 
                "Configurations": [], 
                "Properties": {
"JAVA_HOME": "/usr/lib/jvm/java-1.8.0"
                }
            }
        ], 
        "Properties": {}
    }, 
    {
"Classification": "spark-env", 
        "Configurations": [
            {
"Classification": "export", 
                "Configurations": [], 
                "Properties": {
"JAVA_HOME": "/usr/lib/jvm/java-1.8.0"
                }
            }
        ], 
        "Properties": {}
    }

Anule la configuración con Apache JVM HBase

HBasePara configurar el uso de Java 11, puede establecer la siguiente configuración al lanzar el clúster.



[
  {
    "Classification": "hbase-env", 
    "Configurations": [
      {
        "Classification": "export", 
        "Configurations": [], 
        "Properties": {
          "JAVA_HOME": "/usr/lib/jvm/jre-11"
        }
      }
    ], 
    "Properties": {}
  }
]

Anule la JVM configuración con Apache Hadoop y Hive

El siguiente ejemplo muestra cómo configurarlo en la versión 17 JVM para Hadoop y Hive.


[
    {
        "Classification": "hadoop-env", 
            "Configurations": [
                {
                    "Classification": "export", 
                    "Configurations": [], 
                    "Properties": {
                        "JAVA_HOME": "/usr/lib/jvm/jre-17"
                    }
                }
        ], 
        "Properties": {}
    }
]

Puertos de servicio

Los siguientes son puertos de servicioYARN. HDFS Estos ajustes reflejan los valores predeterminados de Hadoop. Otros servicios de aplicaciones se alojan en puertos predeterminados a menos que se documente lo contrario. Para obtener más información, consulte la documentación del proyecto de la aplicación.

Configuración de puertos para YARN y HDFS
Opción	Nombre de host/puerto
`fs.default.name`	predeterminado (`hdfs://emrDeterminedIP:8020`)
`dfs.datanode.address`	predeterminado (`0.0.0.0:50010`)
`dfs.datanode.http.address`	predeterminado (`0.0.0.0:50075`)
`dfs.datanode.https.address`	predeterminado (`0.0.0.0:50475`)
`dfs.datanode.ipc.address`	predeterminado (`0.0.0.0:50020`)
`dfs.http.address`	predeterminado (`0.0.0.0:50070`)
`dfs.https.address`	predeterminado (`0.0.0.0:50470`)
`dfs.secondary.http.address`	predeterminado (`0.0.0.0:50090`)
`yarn.nodemanager.address`	predeterminado (`${yarn.nodemanager.hostname}:0`)
`yarn.nodemanager.localizer.address`	predeterminado (`${yarn.nodemanager.hostname}:8040`)
`yarn.nodemanager.webapp.address`	predeterminado (`${yarn.nodemanager.hostname}:8042`)
`yarn.resourcemanager.address`	predeterminado (`${yarn.resourcemanager.hostname}:8032`)
`yarn.resourcemanager.admin.address`	predeterminado (`${yarn.resourcemanager.hostname}:8033`)
`yarn.resourcemanager.resource-tracker.address`	predeterminado (`${yarn.resourcemanager.hostname}:8031`)
`yarn.resourcemanager.scheduler.address`	predeterminado (`${yarn.resourcemanager.hostname}:8030`)
`yarn.resourcemanager.webapp.address`	predeterminado (`${yarn.resourcemanager.hostname}:8088`)
`yarn.web-proxy.address`	predeterminado (`no-value`)
`yarn.resourcemanager.hostname`	`emrDeterminedIP`

nota

El término emrDeterminedIP es una dirección IP generada por el plano de EMR control de Amazon. En la versión más reciente, esta convención se ha eliminado, excepto para la configuración yarn.resourcemanager.hostname y fs.default.name.

Usuarios de la aplicación

Las aplicaciones ejecutarán procesos como su propio usuario. Por ejemplo, Hive JVMs se ejecuta como usuariohive, se MapReduce JVMs ejecuta comomapred, etc. Esto se demuestra en el siguiente ejemplo del estado de proceso.


USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
hive      6452  0.2  0.7 853684 218520 ?       Sl   16:32   0:13 /usr/lib/jvm/java-openjdk/bin/java -Xmx256m -Dhive.log.dir=/var/log/hive -Dhive.log.file=hive-metastore.log -Dhive.log.threshold=INFO -Dhadoop.log.dir=/usr/lib/hadoop
hive      6557  0.2  0.6 849508 202396 ?       Sl   16:32   0:09 /usr/lib/jvm/java-openjdk/bin/java -Xmx256m -Dhive.log.dir=/var/log/hive -Dhive.log.file=hive-server2.log -Dhive.log.threshold=INFO -Dhadoop.log.dir=/usr/lib/hadoop/l
hbase     6716  0.1  1.0 1755516 336600 ?      Sl   Jun21   2:20 /usr/lib/jvm/java-openjdk/bin/java -Dproc_master -XX:OnOutOfMemoryError=kill -9 %p -Xmx1024m -ea -XX:+UseConcMarkSweepGC -XX:+CMSIncrementalMode -Dhbase.log.dir=/var/
hbase     6871  0.0  0.7 1672196 237648 ?      Sl   Jun21   0:46 /usr/lib/jvm/java-openjdk/bin/java -Dproc_thrift -XX:OnOutOfMemoryError=kill -9 %p -Xmx1024m -ea -XX:+UseConcMarkSweepGC -XX:+CMSIncrementalMode -Dhbase.log.dir=/var/
hdfs      7491  0.4  1.0 1719476 309820 ?      Sl   16:32   0:22 /usr/lib/jvm/java-openjdk/bin/java -Dproc_namenode -Xmx1000m -Dhadoop.log.dir=/var/log/hadoop-hdfs -Dhadoop.log.file=hadoop-hdfs-namenode-ip-10-71-203-213.log -Dhadoo
yarn      8524  0.1  0.6 1626164 211300 ?      Sl   16:33   0:05 /usr/lib/jvm/java-openjdk/bin/java -Dproc_proxyserver -Xmx1000m -Dhadoop.log.dir=/var/log/hadoop-yarn -Dyarn.log.dir=/var/log/hadoop-yarn -Dhadoop.log.file=yarn-yarn-
yarn      8646  1.0  1.2 1876916 385308 ?      Sl   16:33   0:46 /usr/lib/jvm/java-openjdk/bin/java -Dproc_resourcemanager -Xmx1000m -Dhadoop.log.dir=/var/log/hadoop-yarn -Dyarn.log.dir=/var/log/hadoop-yarn -Dhadoop.log.file=yarn-y
mapred    9265  0.2  0.8 1666628 260484 ?      Sl   16:33   0:12 /usr/lib/jvm/java-openjdk/bin/java -Dproc_historyserver -Xmx1000m -Dhadoop.log.dir=/usr/lib/hadoop/logs -Dhadoop.log.file=hadoop.log -Dhadoop.home.dir=/usr/lib/hadoop

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Almacenamiento de datos de configuración confidenciales en AWS Secrets Manager

Comprobación de dependencias mediante el repositorio de artefactos