翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Apache Spark
Spark アプリケーションは、Scala、Java、および Python をネイティブでサポートしています。また、SQL (Spark
Spark は、他の Hadoop アプリケーションと同時に Amazon EMR クラスターにインストールすることができ、Amazon EMR ファイルシステム (EMRFS) を利用して Amazon S3 のデータに直接アクセスすることができます。Hive は Spark と統合されているため、HiveContext オブジェクトを使用することで、Spark を使用して Hive スクリプトを実行することもできます。Hive コンテキストは、spark-shell に sqlContext
として含められます。
Spark で EMR クラスターをセットアップし、サンプルデータセットを分析するチュートリアルの例については、 AWS ニュースブログの「チュートリアル: Amazon EMR の開始方法」を参照してください。
重要
Apache Spark バージョン 2.3.1 は Amazon EMR リリース 5.16.0 以降で利用でき、CVE-2018-8024
次の表は、Amazon EMR 7.x シリーズの最新リリースに含まれている Spark のバージョンと、Amazon EMR で Spark と共にインストールされるコンポーネントを示しています。
このリリースで Spark と共にインストールされるコンポーネントのバージョンについては、「リリース 7.8.0 コンポーネントバージョン」を参照してください。
Amazon EMR リリースラベル | Spark バージョン | Spark でインストールされるコンポーネント |
---|---|---|
emr-7.8.0 |
Spark 3.5.4 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている Spark のバージョンと、Amazon EMR で Spark と共にインストールされるコンポーネントを示しています。
このリリースで Spark と共にインストールされるコンポーネントのバージョンについては、「リリース 6.15.0 コンポーネントバージョン」を参照してください。
Amazon EMR リリースラベル | Spark バージョン | Spark でインストールされるコンポーネント |
---|---|---|
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注記
Amazon EMR リリース 6.8.0 には、Apache Spark 3.3.0 が付属しています。この Spark リリースでは、Apache Log4j 2 と log4j2.properties
ファイルを使用して Spark プロセス内の Log4j を設定します。クラスターで Spark を使用するか、カスタム設定パラメータを使用して EMR クラスターを作成し、Amazon EMR リリース 6.8.0 にアップグレードする場合は、Apache Log4j 2 の新しい spark-log4j2
設定分類とキー形式に移行する必要があります。詳細については、「Apache Log4j 1.x から Log4j 2.x への移行」を参照してください。
次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている Spark のバージョンと、Amazon EMR で Spark と共にインストールされるコンポーネントを示しています。
このリリースで Spark と共にインストールされるコンポーネントのバージョンについては、「Release 5.36.2 Component Versions」を参照してください。
Amazon EMR リリースラベル | Spark バージョン | Spark でインストールされるコンポーネント |
---|---|---|
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |