為 AWS Glue 任務啟用 Apache Spark web UI - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

為 AWS Glue 任務啟用 Apache Spark web UI

您可以使用 Apache Spark Web UI 來監控和偵錯在 AWS Glue 任務系統上執行的 AWS Glue ETL 任務。您可以使用 AWS Glue 主控台或 AWS Command Line Interface (AWS CLI) 來設定 Spark UI。

每 30 秒,AWS Glue 會將 Spark 事件日誌備份至您指定的 Amazon S3 路徑。

設定 Spark UI (主控台)

使用 AWS Management Console,依照以下步驟來設定 Spark UI。建立 AWS Glue 工作時,Spark UI 預設為啟用。

建立或編輯工作時開啟 Spark UI
  1. 請登入 AWS Management Console 並開啟AWS Glue主控台,網址為 https://console.aws.amazon.com/glue/

  2. 在導覽窗格中,選擇 Jobs (任務)

  3. 選擇新增任務,或選取現有任務。

  4. 任務詳細資料中,開啟進階屬性

  5. Spark UI 索引標籤下方,選擇將 Spark UI 日誌寫入 Amazon S3

  6. 指定 Amazon S3 路徑以用於存放任務的 Spark 事件日誌。請注意,如果在工作中使用安全組態,加密也會套用至 Spark UI 日誌檔案。如需詳細資訊,請參閱 對 AWS Glue 寫入的資料加密

  7. Spark UI 記錄和監控組態下方:

    • 如果您要產生要在 AWS Glue 主控台中檢視的記錄,請選取 [準]。

    • 如果要產生日誌以在 Spark 歷史記錄伺服器中檢視,請選取舊版

    • 您也可以選擇產生兩者。

設定 Spark UI (AWS CLI)

若要產生使用 Spark UI 檢視的記錄檔,請在 AWS Glue 主控台中使用 AWS CLI 將下列工作參數傳遞至AWS Glue工作。如需詳細資訊,請參閱 AWS Glue 任務參數

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

若要將日誌分發至其舊版位置,請將 --enable-spark-ui-legacy-path 參數設定為 "true"。如果您不想要產生這兩種格式的日誌,請移除 --enable-spark-ui 參數。

使用筆記本為工作階段設定 Spark UI

警告

AWS Glue 互動式工作階段目前不支援主控台中的 Spark UI。設定 Spark 歷史記錄伺服器。

如果您使用 AWS Glue 筆記本,請在開始工作階段之前設定 SparKui 設定。為此,請使用 %%configure 儲存格魔術命令:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

啟用滾動記錄檔

為 AWS Glue 工作啟用 SparKui 和滾動記錄事件檔可提供數個好處:

  • 滾動記錄事件檔案 — 啟用滾動記錄事件檔案後, AWS Glue 會為工作執行的每個步驟產生個別的記錄檔,以便更輕鬆地識別和疑難排解特定階段或轉換的特定問題。

  • 更好的日誌管理 — 滾動日誌事件文件有助於更有效地管理日誌文件。記錄會根據工作執行階段,將記錄分割成較小、更容易管理的檔案,而不是具有單一、可能較大的記錄檔。這樣可以簡化記錄封存、分析和疑難排解作業。

  • 改善容錯 — 如果 AWS Glue 工作失敗或中斷,滾動記錄事件檔案可以提供有關上一個成功階段的寶貴資訊,讓您可以更輕鬆地從該點繼續工作,而不是從頭開始。

  • 成本最佳化 — 藉由啟用滾動記錄事件檔案,您可以節省與記錄檔相關聯的儲存成本。您可以儲存較小、更易於管理的記錄檔,而不是儲存單一、可能較大的記錄檔,這樣可能更具成本效益,特別是對於長時間執行或複雜的工作而言。

在新環境中,使用者可透過下列方式明確啟用滾動記錄:

'—conf': 'spark.eventLog.rolling.enabled=true'

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

啟動滾動記錄檔時,請spark.eventLog.rolling.maxFileSize指定事件記錄檔在復原之前的大小上限。如果未指定此選用參數的預設值為 128 MB。最小值為 10 MB。

所有產生的捲動記錄事件檔總和上限為 2 GB。對於沒有滾動記錄支援的 AWS Glue 工作,SparKui 支援的記錄事件檔案大小上限為 0.5 GB。

可以透過傳遞其他組態來關閉串流工作的滾動日誌。請注意,非常大的日誌檔案可能需要昂貴的維護成本。

若要關閉滾動日誌,請提供下列組態:

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'