Apache Spark

Modo de enfoque

Apache Spark - Amazon EMR

Apache Spark es un marco de procesamiento distribuido y un modelo de programación que lo ayuda a aplicar machine learning, procesamiento de flujos o análisis de gráficos con clústeres de Amazon EMR. Del mismo modo que Apache Hadoop, Spark es un sistema de procesamiento distribuido de código abierto utilizado frecuentemente para cargas de trabajo de big data. Sin embargo, Spark tiene varias diferencias notables con respecto a Hadoop MapReduce. Spark tiene un motor de ejecución optimizado de gráficos acíclicos dirigidos (DAG) y almacena en caché datos en memoria de forma activa, lo que puede aumentar el rendimiento especialmente para ciertos algoritmos y consultas interactivas.

Spark admite de forma nativa aplicaciones escritas en Scala, Python y Java. También incluye varias bibliotecas estrechamente integradas para SQL (Spark), aprendizaje automático (MLlib), procesamiento de flujos (Spark streaming) y procesamiento de gráficos (GraphX). Estas herramientas facilitan que Spark aproveche el marco para una amplia variedad de casos de uso.

Puede instalar Spark en un clúster de Amazon EMR junto con otras aplicaciones de Hadoop y el motor puede usar el sistema de archivos de Amazon EMR (EMRFS) para acceder directamente a los datos en Amazon S3. Hive también está integrado con Spark, por lo que puedes usar un HiveContext objeto para ejecutar scripts de Hive con Spark. Un contexto de Hive se incluye en el shell de Spark como sqlContext.

Para ver un ejemplo de tutorial sobre cómo configurar un clúster de EMR con Spark y analizar un conjunto de datos de muestra, consulte Tutorial: Cómo empezar con Amazon EMR en el blog de noticias. AWS

importante

La versión 2.3.1 de Apache Spark, disponible a partir de la versión 5.16.0 de Amazon EMR, aborda CVE-2018-8024 y CVE-2018-1334. Se recomienda migrar las versiones anteriores de Spark a la versión 2.3.1 o posteriores de Spark.

En la siguiente tabla, se muestra la versión de Spark incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.

Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de componentes de la versión 7.8.0.

Información sobre la versión de Spark para emr-7.8.0
Etiqueta de versión de Amazon EMR	Versión de Spark	Componentes instalados con Spark
emr-7.8.0	Spark 3.5.4	delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 6.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.

Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Spark para emr-6.15.0
Etiqueta de versión de Amazon EMR	Versión de Spark	Componentes instalados con Spark
emr-6.15.0	Spark 3.4.1	aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

nota

La versión 6.8.0 de Amazon EMR incluye la versión 3.3.0 de Apache Spark. Esta versión de Spark utiliza Apache Log4j 2 y el archivo log4j2.properties para configurar Log4j en los procesos de Spark. Si utiliza Spark en el clúster o crea clústeres de EMR con parámetros de configuración personalizados y desea actualizar a la versión 6.8.0 de Amazon EMR, debe migrar al nuevo formato de clave y clasificación de configuración spark-log4j2 de Apache Log4j 2. Para obtener más información, consulte Migración de Apache Log4j 1.x a Log4j 2.x.

En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 5.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.

Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de Spark para emr-5.36.2
Etiqueta de versión de Amazon EMR	Versión de Spark	Componentes instalados con Spark
emr-5.36.2	Spark 2.4.8	aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave