Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Apache Spark
Spark admite de forma nativa aplicaciones escritas en Scala, Python y Java. También incluye varias bibliotecas estrechamente integradas para SQL (Spark
Puede instalar Spark en un clúster de Amazon EMR junto con otras aplicaciones de Hadoop y el motor puede usar el sistema de archivos de Amazon EMR (EMRFS) para acceder directamente a los datos en Amazon S3. Hive también está integrado con Spark, por lo que puedes usar un HiveContext objeto para ejecutar scripts de Hive con Spark. Un contexto de Hive se incluye en el shell de Spark como sqlContext
.
Para ver un ejemplo de tutorial sobre cómo configurar un clúster de EMR con Spark y analizar un conjunto de datos de muestra, consulte Tutorial: Cómo empezar con Amazon EMR en el blog de noticias. AWS
importante
La versión 2.3.1 de Apache Spark, disponible a partir de la versión 5.16.0 de Amazon EMR, aborda CVE-2018-8024
En la siguiente tabla, se muestra la versión de Spark incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de componentes de la versión 7.8.0.
Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark |
---|---|---|
emr-7.8.0 |
Spark 3.5.4 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 6.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de los componentes de la versión 6.15.0.
Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark |
---|---|---|
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
nota
La versión 6.8.0 de Amazon EMR incluye la versión 3.3.0 de Apache Spark. Esta versión de Spark utiliza Apache Log4j 2 y el archivo log4j2.properties
para configurar Log4j en los procesos de Spark. Si utiliza Spark en el clúster o crea clústeres de EMR con parámetros de configuración personalizados y desea actualizar a la versión 6.8.0 de Amazon EMR, debe migrar al nuevo formato de clave y clasificación de configuración spark-log4j2
de Apache Log4j 2. Para obtener más información, consulte Migración de Apache Log4j 1.x a Log4j 2.x.
En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 5.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones del componente de la versión 5.36.2.
Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark |
---|---|---|
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Temas
Ejecución de aplicaciones de Spark con Docker en Amazon EMR 6.x
Usa el catálogo de AWS Glue Data Catalog con Spark en Amazon EMR
Trabajar con una jerarquía de varios catálogos en AWS Glue Data Catalog with Spark en Amazon EMR
Almacenamiento en caché de fragmentos de resultados de Spark
Utilice Amazon SageMaker Spark para el aprendizaje automático
Uso del conector Amazon Kinesis Data Streams de streaming estructurado de Spark
Uso de la integración de Amazon Redshift para Apache Spark con Amazon EMR