Kubernetes 名前空間仮想クラスタージョブ実行 Amazon EMR コンテナ

Amazon EMR on EKS の概念と用語の理解

Amazon EMR on EKS には、Amazon Elastic Kubernetes Service (Amazon EKS) でオープンソースのビッグデータフレームワークを実行できる Amazon EMR のデプロイオプションが用意されています。このトピックでは、処理のために送信する作業単位である名前空間、仮想クラスター、ジョブ実行など、一般的な用語の一部に関するコンテキストについて説明します。

Kubernetes 名前空間

Amazon EKS では、クラスターリソースを複数のユーザーとアプリケーションに分割するために Kubernetes 名前空間が使用されます。これらの名前空間はマルチテナント環境の基盤です。Kubernetes 名前空間では、Amazon EC2 または AWS Fargate をコンピューティングプロバイダーとして使用できます。この柔軟性により、ジョブを実行する際のパフォーマンスやコストについてさまざまなオプションを選択できます。

仮想クラスター

仮想クラスターとは、Amazon EMR が登録されている Kubernetes 名前空間です。Amazon EMR では、仮想クラスターを使用してジョブを実行し、エンドポイントをホストします。複数の仮想クラスターを同じ物理クラスターでバックアップできますが、各仮想クラスターは EKS クラスター上の 1 つの名前空間にマッピングされます。仮想クラスターでは、請求に適用されるアクティブなリソースや、サービスの外部でライフサイクル管理を必要とするアクティブなリソースは作成されません。

ジョブ実行

ジョブ実行とは、Amazon EMR on EKS に送信する Spark jar、PySpark スクリプト、SparkSQL クエリなどの作業単位です。1 つのジョブに複数のジョブ実行を設定できます。ジョブ実行の送信時には、次の情報を含めます。

ジョブを実行する仮想クラスター。
ジョブを識別するジョブ名。
実行ロール。これはジョブを実行するスコープ付き IAM ロールで、ジョブからアクセスできるリソースを指定できます。
Amazon EMR リリースラベル。使用するオープンソースアプリケーションのバージョンを指定します。
ジョブの送信時に使用するアーティファクト (spark-submit パラメータなど)。

デフォルトでは、ログは Spark 履歴サーバーにアップロードされ、AWS Management Consoleからアクセス可能です。イベントログ、実行ログ、メトリクスを、Amazon S3 と Amazon CloudWatch にプッシュすることもできます。

Amazon EMR コンテナ

Amazon EMR コンテナとは、Amazon EMR on EKS の API 名です。次のシナリオで emr-containers プレフィックスを使用します。

Amazon EMR on EKS の CLI コマンドのプレフィックスです。例えば、aws emr-containers start-job-run と指定します。
Amazon EMR on EKS の IAM ポリシーアクションの前に使用するプレフィックスです。例えば、"Action": [ "emr-containers:StartJobRun"] と指定します。詳細については、Amazon EMR on EKS でのポリシーアクションを参照してください。
Amazon EMR on EKS サービスエンドポイントで使用するプレフィックスです。例えば、emr-containers.us-east-1.amazonaws.com と指定します。詳細については、「Amazon EMR on EKS サービスエンドポイント」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon EMR on EKS のアーキテクチャ

Amazon EMR on EKS 仮想クラスターに作業を送信するとどうなるか