コンソール上の AWS Glue ジョブ実行のステータス - AWS Glue

コンソール上の AWS Glue ジョブ実行のステータス

AWS Glue 抽出、変換、ロード (ETL) ジョブのステータスは、実行中または停止後に表示できます。AWS Glue コンソールを使用してステータスを表示できます。ジョブ実行のステータスの詳細については、「AWS Glue ジョブ実行ステータス」を参照してください。

ジョブモニタリングダッシュボードにアクセスする

ジョブモニタリングダッシュボードにアクセスするには、[ETL ジョブ] の下の AWS Glue ナビゲーションペインで [ジョブ実行のモニタリング] を選択します。

ジョブモニタリングダッシュボードの概要

ジョブモニタリングダッシュボードでは、ジョブの実行に関する全体的な概要と、ステータスが [Running] (実行中)、[Canceled] (キャンセル済み)、[Success] (成功)、または [Failed] (失敗) となっているジョブの合計を表示します。追加のタイルには、ジョブの実行の全体的な成功率、ジョブの DPU 使用率、ジョブタイプ、ワーカータイプ、日別のジョブステータスの内訳が表示されます。

タイル内のグラフはインタラクティブです。グラフ内の任意のブロックを選択して、ページの下部にある [Job runs] (ジョブの実行) テーブルで、それらのジョブのみを表示するフィルターを実行します。

[Date range] (日付範囲) セレクタを使用して、このページに表示される情報の日付範囲を変更できます。日付範囲を変更すると、現在の日付より前の指定した日数の値を表示するよう情報のタイルが調整されます。また、[Date range] (日付範囲) セレクタから [Custom] (カスタム) を選択して、特定の日付範囲を使用することもできます。

ジョブの実行ビュー

注記

ジョブ実行履歴には、ワークフローとジョブ実行のために 90 日間アクセスできます。

[Job runs] (ジョブの実行) リソースリストには、指定した日付範囲とフィルターのジョブが表示されます。

ステータス、ワーカータイプ、ジョブタイプ、ジョブ名などの追加の基準でジョブをフィルタリングできます。テーブルの上部にあるフィルターボックスに、フィルターとして使用するテキストを入力できます。テキストを入力すると、一致するテキストを含む行でテーブルの結果が更新されます。

ジョブモニタリングダッシュボードのグラフから要素を選択すると、ジョブのサブセットを表示できます。例えば、[Job runs summary] (ジョブの実行のサマリー) タイルで実行中のジョブの数を選択する場合、[Job runs] (ジョブの実行) リストには、その時点で Running のステータスにあるジョブのみが表示されます。[Worker type breakdown] (ワーカータイプの内訳) の棒グラフでいずれかのバーを選択する場合、ワーカータイプとステータスが一致するジョブの実行のみが [Job runs] (ジョブの実行) リストに表示されます。

[Job runs] (ジョブの実行) リソースリストには、ジョブの実行の詳細が表示されます。列見出しを選択して、テーブル内の行を並べ替えることができます。テーブルには次の情報が含まれます。

プロパティ 説明
ジョブ名 ジョブの名前。
タイプ

ジョブの環境のタイプ

  • Glue ETL: AWS Glue が管理する Apache Spark 環境で実行します。

  • Glue Streaming: Apache Spark 環境で実行し、データストリームで ETL を実行します。

  • Python シェル: Python スクリプトをシェルとして実行します。

開始時間

このジョブ実行が開始された日付と時刻。

終了時間

このジョブ実行が完了した日付と時刻。

実行ステータス

現在のジョブ実行の状態。値は次のようになります。

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

実行時間 ジョブの実行でリソースを消費した時間。
容量

このジョブの実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。容量計画の詳細については、AWS Glue デベロッパーガイドの「Monitoring for DPU Capacity Planning」を参照してください。

ワーカータイプ

ジョブの実行時に割り当てられた事前定義済みのワーカーのタイプ。値は G.1XG.2XG.4X または G.8X になります。

  • G.1X – このタイプを選択する場合は、[Number of workers] (ワーカー数) の値も指定します。各ワーカーは、84 GB のディスク (約 34 GB の空き) を備えた 1 DPU (4 vCPU、16 GB のメモリ) にマッピングされます。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。これが AWS Glue バージョン 2.0 以降のジョブの [Worker type] (ワーカータイプ) のデフォルトです。

  • G.2X – このタイプを選択する場合は、[Number of workers] (ワーカー数) の値も指定します。各ワーカーは、128 GB のディスク (約 77 GB の空き) を備えた 2 DPU (8 vCPU、32 GB のメモリ) にマッピングされます。メモリを大量に消費するジョブには、機械学習変換を実行するこのワーカータイプをお勧めします。

  • G.4X – このタイプを選択する場合は、[Number of workers] (ワーカー数) の値も指定します。各ワーカーは、256 GB のディスク (約 235 GB の空き) を備えた 4 DPU (16 vCPU、64 GB のメモリ) にマッピングされます。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、以下の AWS リージョンで使用できます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム)。

  • G.8X – このタイプを選択する場合は、[Number of workers] (ワーカー数) の値も指定します。各ワーカーは、512 GB のディスク (約 487 GB の空き) を備えた 8 DPU (32 vCPU、128 GB のメモリ) にマッピングされます。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、G.4X ワーカータイプでサポートされているのと同じ AWS リージョンで使用できます。

DPU 時間

ジョブの実行に使用される DPU の推定数。DPU は、処理能力の相対的な尺度です。DPU は、ジョブの実行のコストを割り出すために使用されます。詳細については、AWS Glue 料金表ページを参照してください。

リストから任意のジョブの実行を選択し、追加の情報を表示できます。ジョブの実行を選択して、次のいずれかを実行します。

  • [Actions] (アクション) メニューから [View job] (ジョブの表示) オプションを選択して、ビジュアルエディタでジョブを表示します。

  • [Actions] (アクション) メニューから [Stop run] (実行の停止) オプションを使用して、現在行われているジョブ実行を停止します。

  • [View CloudWatch logs] (CloudWatch ログを表示) ボタンをクリックして、そのジョブのジョブの実行ログを表示します。

  • [詳細を表示] を選択して、ジョブの実行の詳細ページを表示します。

ジョブの実行ログの表示

ジョブのログは、さまざまな方法で表示できます。

  • [Monitoring] (モニタリング) ページの [Job runs] (ジョブの実行) テーブルで、ジョブの実行を選択し、[View CloudWatch logs] (CloudWatch ログを表示) を選択します。

  • ビジュアルジョブエディタの、ジョブの [Runs] (実行) タブで、ハイパーリンクを選択してログを表示できます。

    • Logs (ログ) – ジョブの実行で継続的なログ記録が有効であるときに書き込まれる Apache Spark ジョブのログへのリンクです。このリンクを選択すると、/aws-glue/jobs/logs-v2 ロググループ 内の Amazon CloudWatch ログに移動します。デフォルトでは、不要な Apache Hadoop YARN ハートビート、Apache Spark ドライバー、エグゼキューターログメッセージはログから除外されています。継続的なログ記録の詳細については、AWS Glue デベロッパーガイドの「Continuous Logging for AWS Glue Jobs」を参照してください。

    • Error logs (エラーログ) – このジョブの実行で stderr に書き込まれるログへのリンクです。このリンクを選択すると、/aws-glue/jobs/error ロググループ 内の Amazon CloudWatch ログに移動します。これらのログを使用して、ジョブの実行中に発生したエラーに関する詳細を表示できます。

    • Output logs (出力ログ) – このジョブの実行で stdout に書き込まれるログへのリンクです。このリンクを選択すると、/aws-glue/jobs/output ロググループ 内の Amazon CloudWatch ログに移動します。これらのログを使用して、AWS Glue Data Catalog で作成されたテーブルに関する詳細と、発生したエラーをすべて確認することができます。

ジョブの実行の詳細を表示する

[Monitoring] (モニタリング) ページの [Job runs] (ジョブの実行) リストでジョブを選択し、[View run details] (実行の詳細を表示する) をクリックして、ジョブの実行に関する詳細情報を表示できます。

ジョブの実行の詳細ページには、次の情報が表示されます。

プロパティ 説明
ジョブ名 ジョブの名前。
実行ステータス

現在のジョブ実行の状態。値は次のようになります。

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Glue バージョン ジョブ実行に使用される AWS Glue バージョン
最近の試行 ジョブ実行時の自動再試行回数
開始時間

このジョブ実行が開始された日付と時刻。

終了時間

このジョブ実行が完了した日付と時刻。

起動時間

ジョブ実行の準備にかかった時間

実行時間

ジョブスクリプトの実行にかかった時間

トリガー名

ジョブに関連付けられているトリガーの名前

最終更新日

ジョブが最後に変更された日付

セキュリティ設定

ジョブのセキュリティ設定。これには、Amazon S3 の暗号化、CloudWatch の暗号化、ジョブブックマークの暗号化設定が含まれます。

タイムアウト ジョブ実行のタイムアウトのしきい値
割り当てられた容量

このジョブの実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。容量計画の詳細については、AWS Glue デベロッパーガイドの「Monitoring for DPU Capacity Planning」を参照してください。

最大容量

ジョブの実行に使用可能な最大の容量。

ワーカー数 ジョブ実行に使用されるワーカーの数
ワーカータイプ

ジョブの実行に割り当てられる定義済みのワーカータイプ。値は、G.1X または G.2X になります。

  • G.1X – このタイプを選択する場合は、[Number of workers] (ワーカー数) の値も指定します。各ワーカーは 1 DPU (4 vCPU、16 GB のメモリ、64 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキューターがあります。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。これが AWS Glue バージョン 2.0 以降のジョブの [Worker type] (ワーカータイプ) のデフォルトです。

  • G.2X – このタイプを選択する場合は、[Number of workers] (ワーカー数) の値も指定します。各ワーカーは 2 DPU (8 vCPU、32 GB のメモリ、128 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキューターがあります。メモリを大量に消費するジョブには、機械学習変換を実行するこのワーカータイプをお勧めします。

ログ 継続的なログ記録のためのジョブログへのリンク (/aws-glue/jobs/logs-v2)。
出力ログ ジョブの出力ログファイルへのリンク (/aws-glue/jobs/output)。
エラーログ ジョブのエラーログファイルへのリンク (/aws-glue/jobs/error)。

次の追加項目も表示できます。これらは、最近のジョブ実行の情報を表示する際に表示できます。詳細については、「最近のジョブの実行の情報を表示する」を参照してください。

Spark ジョブ実行の Amazon CloudWatch メトリクスを表示

ジョブの実行の詳細ページの [Run details] (実行の詳細) セクションでは、ジョブのメトリクスを表示できます。AWS Glue Studio はジョブ実行のたびにジョブメトリクスを Amazon CloudWatch に送信します。

AWS Glue では、30 秒ごとに Amazon CloudWatch にメトリクスが報告されます。AWS Glue メトリクスは、以前に報告された値からデルタ値を表示します。必要に応じて、メトリクスのダッシュボードにより 30 秒の値が集計 (合計) され、直近 1 分間分の値を取得できます。一方、AWS Glue によって Amazon CloudWatch に渡される Apache Spark メトリクスは、一般的に報告された時点での状態を表す絶対値です。

注記

Amazon CloudWatch にアクセスできるようアカウントを設定する必要があります。

メトリクスには、次のようなジョブの実行に関する情報が表示されます。

  • ETL Data Movement (ETL データ移動) – Amazon S3 から読み取られたバイト数またはそこに書き込まれたバイト数。

  • Memory Profile: Heap used (プロファイル: ヒープ使用) – Java 仮想マシン (JVM) ヒープによって使用されたメモリのバイト数。

  • Memory Profile: heap usage (メモリプロファイル: ヒープ使用量) – JVM ヒープによって使用されたメモリの割合 (スケール: 0~1)。百分率で示されます。

  • CPU Load (CPU 負荷) – 使用された CPU システムの負荷の割合 (スケール: 0~1)。百分率で示されます。

Ray ジョブ実行の Amazon CloudWatch メトリクスを表示

ジョブの実行の詳細ページの [Run details] (実行の詳細) セクションでは、ジョブのメトリクスを表示できます。AWS Glue Studio はジョブ実行のたびにジョブメトリクスを Amazon CloudWatch に送信します。

AWS Glue では、30 秒ごとに Amazon CloudWatch にメトリクスが報告されます。AWS Glue メトリクスは、以前に報告された値からデルタ値を表示します。必要に応じて、メトリクスのダッシュボードにより 30 秒の値が集計 (合計) され、直近 1 分間分の値を取得できます。一方、AWS Glue によって Amazon CloudWatch に渡される Apache Spark メトリクスは、一般的に報告された時点での状態を表す絶対値です。

注記

次に示されているように、Amazon CloudWatch にアクセスできるようアカウントを設定する必要があります。

Ray ジョブでは、次の集約メトリクスグラフを表示できます。これらを使用すると、クラスターとタスクのプロファイルを作成し、各ノードの詳細情報にアクセスできます。これらのグラフを裏付ける時系列データは、CloudWatch でさらに分析できます。

タスクプロファイル: タスクの状態

システム内の Ray タスクの数を表示します。各タスクのライフサイクルには、独自の時系列が割り当てられます。

タスクプロファイル: タスク名

システム内の Ray タスクの数を表示します。保留中のタスクとアクティブなタスクのみが表示されます。タスクのタイプ (名前別) ごとに独自の時系列が割り当てられます。

クラスタープロファイル: 使用中の CPU

使用中の CPU コアの数を表示します。ノードごとに独自の時系列が割り当てられます。ノードは IP アドレスで識別されます。IP アドレスは一時的なものであり、識別にのみ使用されます。

クラスタープロファイル: オブジェクトストアのメモリ使用量

Ray オブジェクトキャッシュによるメモリ使用量を表示します。各メモリの場所 (物理メモリ、ディスクへのキャッシュ、Amazon S3 への流出) には、独自の時系列が割り当てられます。オブジェクトストアは、クラスター内に存在するすべてのノードのデータストレージを管理します。詳細については、Ray ドキュメントの「Objects」を参照してください。

クラスタープロファイル: ノード数

クラスターにプロビジョニングされたノード数を表示します。

ノードの詳細: CPU 使用量

各ノードの CPU 使用率をパーセンテージで表示します。各シリーズは、ノード上に存在する全コアの CPU 使用率の合計パーセンテージを表示します。

ノードの詳細: メモリ使用量

各ノードのメモリ使用量を GB 単位で表示します。各シリーズは、Ray タスクと Plasma ストアプロセスを含む、ノード上のすべてのプロセス間で集約されたメモリを表示します。これには、ディスクに保存されたオブジェクトや Amazon S3 に流出したオブジェクトは反映されません。

ノードの詳細: ディスク使用量

各ノードのディスク使用量を GB 単位で表示します。

ノードの詳細: ディスク I/O 速度

各ノードのディスク I/O を KB/秒単位で表示します。

ノードの詳細: ネットワーク I/O スループット

各ノードのネットワーク I/O を KB/秒単位で表示します。

ノードの詳細: Ray コンポーネントによる CPU 使用量

CPU 使用量をコアの分数で表示します。各ノードの Ray コンポーネントごとに独自の時系列が割り当てられます。

ノードの詳細: Ray コンポーネントによるメモリ使用量

メモリ使用量を GiB 単位で表示します。各ノードの Ray コンポーネントごとに独自の時系列が割り当てられます。