AWS Glue ジョブ用の Apache Spark ウェブ UI の有効化 - AWS Glue

AWS Glue ジョブ用の Apache Spark ウェブ UI の有効化

Apache Spark ウェブ UI を使用して、AWS Glue ジョブシステムで実行されている AWS Glue ETL ジョブをモニタリングおよびデバッグできます。Spark UI は、AWS Glue コンソールまたは AWS Command Line Interface (AWS CLI) を使用して設定できます。

30 秒ごとに、AWS Glue は指定した Amazon S3 パスに Spark イベントログをバックアップします。

Spark UI の設定 (コンソール)

以下のステップに従い、AWS Management Consoleを使用して Spark UI を設定します。AWS Glue ジョブを作成する際、Spark UI はデフォルトで有効になります。 

ジョブを作成または編集するときに Spark UI をオンにするには 
  1. AWS Management Consoleにサインインし、AWS Glue コンソール (https://console.aws.amazon.com/glue/) を開きます。

  2. ナビゲーションペインで ジョブを選択します。

  3. [ジョブを追加] を選択するか、または既存のジョブを選択します。

  4. [ジョブの詳細] で、[詳細プロパティ] を開きます。

  5. [Spark UI] タブで、[Spark UI ログを Amazon S3 に書き込む] を選択します。 

  6. ジョブの Spark イベントログを保存するための Amazon S3 パスを指定します。ジョブでセキュリティ設定を使用する場合、暗号化は Spark UI ログファイルにも適用されることに注意してください。  詳細については、「AWS Glue​ によって書き込まれたデータの暗号化」を参照してください。

  7. [Spark UI のログ記録とモニタリングの設定] で、次のように操作します。

    • AWS Glue コンソールで表示するログを生成している場合は、[標準] を選択します。

    • Spark 履歴サーバーで表示するログを生成している場合は、[レガシー] を選択します。

    • 両方を生成することを選択することもできます。

Spark UI の設定 (AWS CLI)

Spark UI で表示するログを生成するには、AWS Glue コンソールで AWS CLI を使用して、次のジョブパラメータを AWS Glue ジョブに渡します。詳細については、「AWS Glue ジョブでジョブパラメータを使用する」を参照してください。

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

ログをレガシーの場所に配布するには、--enable-spark-ui-legacy-path パラメータを "true" に設定します。両方の形式でログを生成したくない場合は、--enable-spark-ui パラメータを削除します。

Notebook を使用するセッション用の Spark UI の設定

警告

AWS Glue インタラクティブセッションは現在、コンソールでの Spark UI をサポートしていません。Spark 履歴サーバーを設定します。

AWS Glue ノートブック を使用する場合は、セッションを開始する前に SparkUI の設定をセットアップします。そのためには、次のように %%configure セルマジックを使用します。

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

ローリングログを有効にする

AWS Glue ジョブの SparkUI とローリングログファイルを有効にすると、いくつかの利点があります。

  • ローリングログイベントファイル – ローリングログイベントファイルを有効にすると、AWS Glue はジョブ実行の各ステップごとに個別のログファイルを生成し、特定のステージまたは変換に固有の問題の特定とトラブルシューティングを容易にします。

  • ログ管理の向上 – ログファイルをローリングすると、ログファイルをより効率的に管理できます。1 つの大きなログファイルを持つ代わりに、ログはジョブ実行ステージに基づいて、より小さく管理しやすいファイルに分割されます。これにより、ログのアーカイブ、分析、トラブルシューティングを簡素化できます。

  • 障害耐性の向上 – AWS Glue ジョブが失敗または中断された場合、ローリングログイベントは、最後に成功したステージに関する貴重な情報を提供するため、最初から開始するのではなく、その時点からジョブを再開しやすくなります。

  • コストの最適化 – ローリングログファイルを有効にすることで、ログファイルに関連するストレージコストを削減できます。1 つの大きなログファイルを保存する代わりに、より小さく、管理しやすいログファイルを保存します。これは、特に長時間実行されるジョブや複雑なジョブの場合、費用対効果が高くなります。

新しい環境では、ユーザーは以下を通じてローリングログを明示的に有効にできます。

'—conf': 'spark.eventLog.rolling.enabled=true'

または

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

ローリングログが有効な場合、spark.eventLog.rolling.maxFileSize はロールオーバーする前のイベントログファイルの最大サイズを指定します。このオプションパラメータが指定されていない場合のデフォルト値は 128 MB です。最小は 10 MB です。

生成されたすべてのロールされたログファイルの最大合計は 2 GB です。ローリングログがサポートされていない AWS Glue ジョブの場合、SparkUI でサポートされるログイベントファイルの最大サイズは 0.5 GB です。

追加の設定を渡すことで、ストリーミングジョブのローリングログをオフにすることができます。  ログファイルが非常に大きいと、管理にコストがかかる場合があることに注意してください。 

ローリングログをオフにするには、次の設定を提供します。

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'