Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Apache Spark
Apache Spark
De manière native, Spark prend en charge les applications écrites en Scala, python ou Java. Il inclut également plusieurs bibliothèques étroitement intégrées pour SQL (Spark SQL
Vous pouvez installer Spark sur un EMR cluster Amazon avec d'autres applications Hadoop, et il peut également exploiter le système de EMR fichiers Amazon (EMRFS) pour accéder directement aux données dans Amazon S3. Hive est également intégré à Spark afin que vous puissiez utiliser un HiveContext objet pour exécuter des scripts Hive à l'aide de Spark. Un contexte Hive est inclus dans le shell de Spark en tant que sqlContext
.
Pour un exemple de didacticiel sur la configuration d'un EMR cluster avec Spark et l'analyse d'un exemple de jeu de données, consultez Tutoriel : Getting started with Amazon EMR sur le blog AWS News.
Important
Apache Spark version 2.3.1, disponible à partir de la EMR version 5.16.0 d'Amazon, adresses CVE-2018-8024 et -2018-1334
Le tableau suivant répertorie la version de Spark incluse dans la dernière version de la série Amazon EMR 7.x, ainsi que les composants qu'Amazon EMR installe avec Spark.
Pour connaître la version des composants installés avec Spark dans cette version, consultez la version 7.2.0 des versions des composants.
Informations sur la version de Spark pour emr-7.2.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Étiquette EMR de sortie Amazon | Version de Spark | Composants installés avec Spark | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-7.2.0 |
Spark 3.5.1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Le tableau suivant répertorie la version de Spark incluse dans la dernière version de la série Amazon EMR 6.x, ainsi que les composants qu'Amazon EMR installe avec Spark.
Pour connaître la version des composants installés avec Spark dans cette version, consultez la rubrique Versions des composants de la version 6.15.0.
Informations sur la version de Spark pour emr-6.15.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Étiquette EMR de sortie Amazon | Version de Spark | Composants installés avec Spark | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Note
La EMR version 6.8.0 d'Amazon est fournie avec Apache Spark 3.3.0. Cette version de Spark utilise Apache Log4j 2 et le fichier log4j2.properties
pour configurer Log4j dans les processus Spark. Si vous utilisez Spark dans le cluster ou si vous créez des EMR clusters avec des paramètres de configuration personnalisés, et que vous souhaitez passer à la EMR version 6.8.0 d'Amazon, vous devez migrer vers la nouvelle classification de spark-log4j2
configuration et le nouveau format de clé pour Apache Log4j 2. Pour de plus amples informations, veuillez consulter Migration d'Apache Log4j 1.x vers Log4j 2.x.
Le tableau suivant répertorie la version de Spark incluse dans la dernière version de la série Amazon EMR 5.x, ainsi que les composants qu'Amazon EMR installe avec Spark.
Pour la version des composants installés avec Spark dans cette version, consultez la version 5.36.2 Versions des composants.
Informations sur la version de Spark pour emr-5.36.2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Étiquette EMR de sortie Amazon | Version de Spark | Composants installés avec Spark | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Rubriques
- Création d’un cluster avec Apache Spark
- Exécutez des applications Spark avec Docker sur Amazon 6.x EMR
- Utiliser le catalogue de données AWS Glue comme métastore pour Spark SQL
- Configuration de Spark
- Optimisation des performances de Spark
- Mise en cache des fragments de résultats Spark
- Utiliser l'RAPIDSaccélérateur Nvidia pour Apache Spark
- Accès au shell de Spark
- Utiliser Amazon SageMaker Spark pour le machine learning
- Ecriture d'une application Spark
- Améliorer les performances de Spark avec Amazon S3
- Ajout d'une étape Spark
- Afficher l'historique de l'application Spark
- Accédez au site Web Spark UIs
- Utilisation du connecteur Amazon Kinesis Data Streams pour le streaming structuré Spark
- Utilisation de l'intégration d'Amazon Redshift pour Apache Spark avec Amazon EMR
- Historique des versions de Spark