本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Apache Spark
Apache Spark
Spark 内在支持使用 Scala、Python 和 Java 编写的应用程序。它还包括几个紧密集成的库,用于 SQL (Spark SQL
您可以将 Spark 与其他 Hadoop 应用程序一起安装在亚马逊EMR集群上,它还可以利用亚马逊EMR文件系统 (EMRFS) 直接访问亚马逊 S3 中的数据。Hive 还与 Spark 集成,因此你可以使用 HiveContext 对象通过 Spark 运行 Hive 脚本。Hive 上下文作为 sqlContext
包含在 Spark Shell 中。
有关使用 Spark 设置EMR集群和分析示例数据集的示例教程,请参阅 AWS 新闻博客EMR上的教程:Amazon 入门。
重要
下表列出了最新版本的亚马逊 EMR 7.x 系列中包含的 Spark 版本,以及亚马逊与 Spark 一起EMR安装的组件。
有关此版本中与 Spark 一起安装的组件的版本,请参阅 7.3.0 版本的组件版本。
Amazon EMR 发布标签 | Spark 版本 | 随 Spark 安装的组件 |
---|---|---|
emr-7.3.0 |
Spark 3.5.1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
下表列出了最新版本的亚马逊 EMR 6.x 系列中包含的 Spark 版本,以及亚马逊与 Spark 一起EMR安装的组件。
有关此发行版中随 Spark 安装的组件版本,请参阅发行版 6.15.0 组件版本。
Amazon EMR 发布标签 | Spark 版本 | 随 Spark 安装的组件 |
---|---|---|
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注意
亚马逊EMR版本 6.8.0 附带了 Apache Spark 3.0。此 Spark 发行版使用 Apache Log4j 2 和 log4j2.properties
文件,在 Spark 进程中配置 Log4j。如果您在集群中使用 Spark 或使用自定义配置参数创建EMR集群,并且想要升级到 Amazon EMR 版本 6.8.0,则必须迁移到 Apache Log4j 2 的新spark-log4j2
配置分类和密钥格式。有关更多信息,请参阅 从 Apache Log4j 1.x 迁移到 Log4j 2.x。
下表列出了最新版本的亚马逊 EMR 5.x 系列中包含的 Spark 版本,以及亚马逊与 Spark 一起EMR安装的组件。
有关此版本中与 Spark 一起安装的组件的版本,请参阅 5.36.2 版组件版本。
Amazon EMR 发布标签 | Spark 版本 | 随 Spark 安装的组件 |
---|---|---|
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
主题
- 使用 Apache Spark 创建集群
- 在亚马逊 EMR 6.x 上使用 Docker 运行 Spark 应用程序
- 使用 AWS Glue 数据目录作为 Spark 的元数据库 SQL
- 配置 Spark
- 优化 Spark 性能
- Spark 结果片段缓存
- 使用 Apache Spar RAPIDS k 的 Nvidia 加速器
- 访问 Spark Shell
- 使用 Amazon SageMaker Spark 进行机器学习
- 编写 Spark 应用程序
- 使用 Amazon S3 提高 Spark 性能
- 添加 Spark 步骤
- 查看 Spark 应用程序历史记录
- 访问 Spark 网站 UIs
- 使用 Spark 结构化流媒体 Amazon Kinesis Data Streams 连接器
- 使用亚马逊 Redshift 与 Apache Spark 的集成与亚马逊 EMR
- Spark 发行历史记录