EMR Studio コンソールからのジョブの実行 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

EMR Studio コンソールからのジョブの実行

ジョブ実行を EMR Serverless アプリケーションに送信し、EMRStudio コンソールからジョブを表示できます。EMR Studio コンソールで EMR Serverless アプリケーションを作成または移動するには、「コンソールから開始する」の手順に従います。

ジョブを送信する

「ジョブの送信」ページで、次のようにジョブをEMRサーバーレスアプリケーションに送信できます。

Spark
  1. 名前 フィールドに、ジョブ実行の名前を入力します。

  2. ランタイムロール フィールドに、EMRサーバーレスアプリケーションがジョブ実行のために引き受けることができるIAMロールの名前を入力します。ランタイムロールの詳細については、「」を参照してくださいAmazon EMR Serverless のジョブランタイムロール

  3. スクリプトの場所 フィールドに、実行するスクリプトまたは の Amazon S3 JAR の場所を入力します。Spark ジョブの場合、スクリプトは Python (.py) ファイルまたは JAR (.jar) ファイルです。

  4. スクリプトの場所が JAR ファイルの場合は、ジョブのエントリポイントであるクラス名を Main class フィールドに入力します。

  5. (オプション) 残りのフィールドに値を入力します。

    • スクリプト引数 — メインJARスクリプトまたは Python スクリプトに渡す引数を入力します。コードはこれらのパラメータを読み取ります。配列内の各引数をカンマで区切ります。

    • Spark プロパティ — Spark プロパティセクションを展開し、このフィールドに Spark 設定パラメータを入力します。

      注記

      Spark ドライバーとエグゼキュターのサイズを指定する場合は、メモリのオーバーヘッドを考慮する必要があります。プロパティ spark.driver.memoryOverheadおよび でメモリオーバーヘッド値を指定しますspark.executor.memoryOverhead。メモリオーバーヘッドのデフォルト値はコンテナメモリの 10% で、最低 384 MB です。エグゼキュターメモリとメモリオーバーヘッドは、一緒にワーカーメモリを超えることはできません。例えば、30 GB ワーカーspark.executor.memoryの最大は 27 GB である必要があります。

    • ジョブ設定 - このフィールドにジョブ設定を指定します。これらのジョブ設定を使用して、アプリケーションのデフォルト設定を上書きできます。

    • 追加設定 — を有効または無効にする AWS Glue Data Catalog をメタストアとして作成し、アプリケーションログ設定を変更します。メタストア設定の詳細については、「」を参照してくださいメタストア設定。アプリケーションのログ記録オプションの詳細については、「」を参照してくださいログの保存

    • タグ — アプリケーションにカスタムタグを割り当てます。

  6. [Submit job] (ジョブの送信) を選択します。

Hive
  1. 名前 フィールドに、ジョブ実行の名前を入力します。

  2. ランタイムロール フィールドに、EMRサーバーレスアプリケーションがジョブ実行のために引き受けることができるIAMロールの名前を入力します。

  3. スクリプトの場所 フィールドに、実行するスクリプトまたは の Amazon S3 JAR の場所を入力します。Hive ジョブの場合、スクリプトは Hive (.sql) ファイルである必要があります。

  4. (オプション) 残りのフィールドに値を入力します。

    • 初期化スクリプトの場所 – Hive スクリプトが実行される前にテーブルを初期化するスクリプトの場所を入力します。

    • Hive プロパティ – Hive プロパティセクションを展開し、このフィールドに Hive 設定パラメータを入力します。

    • ジョブ設定 — 任意のジョブ設定を指定します。これらのジョブ設定を使用して、アプリケーションのデフォルト設定を上書きできます。Hive ジョブの場合、 hive.exec.scratchdirおよび hive.metastore.warehouse.dirhive-site設定で必須のプロパティです。

      { "applicationConfiguration": [ { "classification": "hive-site", "configurations": [], "properties": { "hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET/hive/scratch", "hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET/hive/warehouse" } } ], "monitoringConfiguration": {} }
    • 追加設定 — を有効または無効にする AWS Glue Data Catalog をメタストアとして作成し、アプリケーションログ設定を変更します。メタストア設定の詳細については、「」を参照してくださいメタストア設定。アプリケーションのログ記録オプションの詳細については、「」を参照してくださいログの保存

    • タグ — アプリケーションにカスタムタグを割り当てます。

  5. [Submit job] (ジョブの送信) を選択します。

ジョブ実行を表示する

アプリケーションの 詳細 ページの ジョブ実行 タブから、ジョブ実行を表示し、ジョブ実行に対して次のアクションを実行できます。

ジョブのキャンセルRUNNING状態のジョブ実行をキャンセルするには、このオプションを選択します。ジョブ実行の移行の詳細については、「」を参照してくださいジョブ実行状態

ジョブのクローン — 以前のジョブ実行のクローンを作成して再送信するには、このオプションを選択します。