Amazon EMR on EKS の Spark 演算子で垂直的自動スケーリングを使用する

Amazon EMR 7.0 以降では、Amazon EMR on EKS の垂直的自動スケーリングを使用してリソース管理を簡素化できます。Amazon EMR Spark アプリケーションに提供するワークロードのニーズに合わせて、メモリと CPU リソースを自動的に調整します。詳細については、「Amazon EMR Spark ジョブで垂直的自動スケーリングを使用する」を参照してください。

このセクションでは、垂直的自動スケーリングを使用するように Spark 演算子を設定する方法について説明します。

前提条件

続行する前に、以下の設定を完了していることを確認してください。

「Amazon EMR on EKS での Spark 演算子のセットアップ」のステップを完了します。
(オプション) Spark 演算子の古いバージョンを以前にインストールしている場合は、SparkApplication/ScheduledSparkApplication CRD を削除します。
```
kubectl delete crd sparkApplication
kubectl delete crd scheduledSparkApplication
```
「Spark 演算子をインストールする」のステップを完了します。ステップ 3 では、インストールコマンドに以下の行を追加して、演算子にウェブフックを許可します。
```
--set webhook.enable=true
```
「Amazon EMR on EKS の垂直的自動スケーリングのセットアップ」のステップを完了します。

次の Amazon S3 の場所にあるファイルへのアクセスを許可します。

S3 アクセス権限を持つ JobExecutionRole を使用して、ドライバーとオペレーターのサービスアカウントに注釈を付けます。


kubectl annotate serviceaccount -n spark-operator emr-containers-sa-spark eks.amazonaws.com/role-arn=JobExecutionRole
kubectl annotate serviceaccount -n spark-operator emr-containers-sa-spark-operator eks.amazonaws.com/role-arn=JobExecutionRole

その名前空間でジョブ実行ロールの信頼ポリシーを更新します。


aws emr-containers update-role-trust-policy \
--cluster-name cluster \
--namespace ${Namespace}\
--role-name iam_role_name_for_job_execution

ジョブ実行ロールの IAM ロール信頼ポリシーを編集し、serviceaccount を emr-containers-sa-spark-*-*-xxxx から emr-containers-sa-* に更新します。


{
    "Effect": "Allow",
    "Principal": {
        "Federated": "OIDC-provider"
    },
    "Action": "sts:AssumeRoleWithWebIdentity",
    "Condition": {
        "StringLike": {
            "OIDC": "system:serviceaccount:${Namespace}:emr-containers-sa-*"
        }
    }
}

Amazon S3 をファイルストレージとして使用している場合は、yaml ファイルに次のデフォルトを追加します。


hadoopConf:
# EMRFS filesystem
  fs.s3.customAWSCredentialsProvider: com.amazonaws.auth.WebIdentityTokenCredentialsProvider
  fs.s3.impl: com.amazon.ws.emr.hadoop.fs.EmrFileSystem
  fs.AbstractFileSystem.s3.impl: org.apache.hadoop.fs.s3.EMRFSDelegate
  fs.s3.buffer.dir: /mnt/s3
  fs.s3.getObject.initialSocketTimeoutMilliseconds: "2000"
  mapreduce.fileoutputcommitter.algorithm.version.emr_internal_use_only.EmrFileSystem: "2"
  mapreduce.fileoutputcommitter.cleanup-failures.ignored.emr_internal_use_only.EmrFileSystem: "true"
sparkConf:
 # Required for EMR Runtime
 spark.driver.extraClassPath: /usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*:/usr/share/aws/emr/emrfs/conf:/usr/share/aws/emr/emrfs/lib/*:/usr/share/aws/emr/emrfs/auxlib/*:/usr/share/aws/emr/security/conf:/usr/share/aws/emr/security/lib/*:/usr/share/aws/hmclient/lib/aws-glue-datacatalog-spark-client.jar:/usr/share/java/Hive-JSON-Serde/hive-openx-serde.jar:/usr/share/aws/sagemaker-spark-sdk/lib/sagemaker-spark-sdk.jar:/home/hadoop/extrajars/*
 spark.driver.extraLibraryPath: /usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native:/docker/usr/lib/hadoop/lib/native:/docker/usr/lib/hadoop-lzo/lib/native
 spark.executor.extraClassPath: /usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*:/usr/share/aws/emr/emrfs/conf:/usr/share/aws/emr/emrfs/lib/*:/usr/share/aws/emr/emrfs/auxlib/*:/usr/share/aws/emr/security/conf:/usr/share/aws/emr/security/lib/*:/usr/share/aws/hmclient/lib/aws-glue-datacatalog-spark-client.jar:/usr/share/java/Hive-JSON-Serde/hive-openx-serde.jar:/usr/share/aws/sagemaker-spark-sdk/lib/sagemaker-spark-sdk.jar:/home/hadoop/extrajars/*
 spark.executor.extraLibraryPath: /usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native:/docker/usr/lib/hadoop/lib/native:/docker/usr/lib/hadoop-lzo/lib/native

Spark 演算子で垂直的自動スケーリングを使用してジョブを実行する

Spark 演算子を使用して Spark アプリケーションを実行する前に、「前提条件」のステップを完了する必要があります。

Spark 演算子で垂直的自動スケーリングを使用するには、Spark アプリケーション仕様のドライバーに次の設定を追加して、垂直的自動スケーリングを有効にします。


dynamicSizing:
  mode: Off
  signature: "my-signature"

この設定は垂直的自動スケーリングを有効にし、ジョブの署名を選択できる必須の署名設定です。

設定とパラメータ値の詳細については、「Amazon EMR on EKS の垂直的自動スケーリングの設定」を参照してください。デフォルトでは、ジョブは垂直的自動スケーリングのモニタリング専用 [オフ] モードで送信されます。このモニタリング状態では、自動スケーリングを実行しなくてもリソースレコメンデーションを計算して表示できます。詳細については、「垂直的自動スケーリングモード」を参照してください。

以下の例は、垂直的自動スケーリングを使用するために必要な設定を含む spark-pi.yaml という名前の SparkApplication 定義ファイルです。


apiVersion: "sparkoperator.k8s.io/v1beta2"
kind: SparkApplication
metadata:
  name: spark-pi
  namespace: spark-operator
spec:
  type: Scala
  mode: cluster
  image: "895885662937.dkr.ecr.us-west-2.amazonaws.com/spark/emr-7.3.0:latest"
  imagePullPolicy: Always
  mainClass: org.apache.spark.examples.SparkPi
  mainApplicationFile: "local:///usr/lib/spark/examples/jars/spark-examples.jar"
  sparkVersion: "3.4.1"
  dynamicSizing:
    mode: Off
    signature: "my-signature"
  restartPolicy:
    type: Never
  volumes:
    - name: "test-volume"
      hostPath:
        path: "/tmp"
        type: Directory
  driver:
    cores: 1
    coreLimit: "1200m"
    memory: "512m"
    labels:
      version: 3.4.1
    serviceAccount: emr-containers-sa-spark
    volumeMounts:
      - name: "test-volume"
        mountPath: "/tmp"
  executor:
    cores: 1
    instances: 1
    memory: "512m"
    labels:
      version: 3.4.1
    volumeMounts:
      - name: "test-volume"
        mountPath: "/tmp"

次に、以下のコマンドを使用して、Spark アプリケーションを送信します。これにより、spark-pi という名前の SparkApplication オブジェクトも作成されます。


kubectl apply -f spark-pi.yaml

Spark 演算子を使用して Spark にアプリケーションを送信する方法の詳細については、GitHub の spark-on-k8s-operator ドキュメントの「Using a SparkApplication」を参照してください。

垂直的自動スケーリング機能の検証

垂直的自動スケーリングが送信されたジョブで正しく機能することを確認するには、kubectl を使用して verticalpodautoscaler カスタムリソースを取得し、スケーリングの推奨事項を確認してください。


kubectl get verticalpodautoscalers --all-namespaces \ 
-l=emr-containers.amazonaws.com/dynamic.sizing.signature=my-signature

このクエリの出力は以下のようになります。


NAMESPACE        NAME                                                          MODE   CPU   MEM         PROVIDED   AGE
spark-operator   ds-p73j6mkosvc4xeb3gr7x4xol2bfcw5evqimzqojrlysvj3giozuq-vpa   Off          580026651   True       15m

出力が類似していない場合やエラーコードが含まれている場合は、「Amazon EMR on EKS 垂直自動スケーリングのトラブルシューティング」を参照して、問題の解決に役立つ手順をご覧ください。

ポッドとアプリケーションを削除するには、以下のコマンドを実行します。


kubectl delete sparkapplication spark-pi

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

使用開始

アンインストール