AWS Glue 互動式工作階段入門 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 互動式工作階段入門

這些章節說明如何執行 AWS Glue 本機互動式工作階段。

在本機設定互動式工作階段的先決條件

下列是安裝互動式工作階段的先決條件:

  • 支援的 Python 版本為 3.6 至 3.10 以上版本。

  • 請參閱以下章節來取得 MacOS/Linux 和 Windows 的相關指示。

安裝 Jupyter 和 AWS Glue 互動式工作階段 Jupyter 內核

使用以下命令在本機安裝核心。

install-glue-kernels 命令會同時為 Pyspark 和 Spark 核心安裝 jupyter kernelspec,並在正確的目錄中安裝標誌。

pip3 install --upgrade jupyter boto3 aws-glue-sessions
install-glue-kernels

執行 Jupyter

若要執行 Jupyter 筆記本,請完成以下步驟。

  1. 執行下列命令以啟動 Jupyter 筆記本。

    jupyter notebook
  2. 選擇 New (新增),然後選擇其中一個 AWS Glue 核心以開始針對 AWS Glue 編碼。

設定工作階段憑證和區域

MacOS/Linux 指示

AWS Glue 互動式工作階段需要與 AWS Glue 任務和開發端點相同的 IAM 許可。使用下列兩種方式之一指定與互動式工作階段搭配使用的角色:

  1. 使用 %iam_role%region 魔術命令

  2. 使用 ~/.aws/config 中額外的行

使用魔術命令設定工作階段角色

在第一個儲存格中,在執行的第一個儲存格中鍵入 %iam_role <YourGlueServiceRole>

Configuring a session role with ~/.aws/config (使用 設定工作階段角色)

AWS Glue互動式工作階段的服務角色可以在筆記本本身中指定,或與 AWS CLI 組態一起儲存。如果您有一個通常與 AWS Glue 任務一起使用的角色,那麼這就是該角色。如果您沒有用於 AWS Glue 任務的角色,請遵循本指南:《設定用於 AWS Glue 的 IAM 許可》來進行設定。

若要將此角色設定為互動式工作階段的預設角色:

  1. 在文字編輯器中開啟 ~/.aws/config

  2. 尋找您用於 AWS Glue 的設定檔。如果您不使用設定檔,請使用 [Default] 設定檔。

  3. 在設定檔中為您打算使用的角色新增一行,如 glue_role_arn=<AWSGlueServiceRole>

  4. [選用]:如果您的設定檔沒有設定預設區域,建議使用 region=us-east-1 新增一個區域,將 us-east-1 替換為您所需的區域。

  5. 儲存組態。

如需詳細資訊,請參閱 具備 IAM 的互動式工作階段

Windows 指示

AWS Glue 互動式工作階段需要與 AWS Glue 任務和開發端點相同的 IAM 許可。使用下列兩種方式之一指定與互動式工作階段搭配使用的角色:

  1. 使用 %iam_role%region 魔術命令

  2. 使用 ~/.aws/config 中額外的行

使用魔術命令設定工作階段角色

在第一個儲存格中,在執行的第一個儲存格中鍵入 %iam_role <YourGlueServiceRole>

使用 ~/.aws/config 設定工作階段角色

AWS Glue互動式工作階段的服務角色可以在筆記本本身中指定,或與 AWS CLI 組態一起儲存。如果您有一個通常與 AWS Glue 任務一起使用的角色,那麼這就是該角色。如果您沒有用於 AWS Glue 任務的角色,請遵循本指南:設定用於 AWS Glue 的 IAM 許可,來進行設定。

若要將此角色設定為互動式工作階段的預設角色:

  1. 在文字編輯器中開啟 ~/.aws/config

  2. 尋找您用於 AWS Glue 的設定檔。如果您不使用設定檔,請使用 [Default] 設定檔。

  3. 在設定檔中為您打算使用的角色新增一行,如 glue_role_arn=<AWSGlueServiceRole>

  4. [選用]:如果您的設定檔沒有設定預設區域,建議使用 region=us-east-1 新增一個區域,將 us-east-1 替換為您所需的區域。

  5. 儲存組態。

如需詳細資訊,請參閱 具備 IAM 的互動式工作階段

從互動式工作階段預覽版升級

在 0.27 版本發佈時,核心已升級並擁有新名稱。要清理內核的預覽版本,請從終端或 PowerShell運行以下內容。

注意

如果您的核心是需要自訂服務模型的任何其他 AWS Glue 預覽版的一部分,移除核心會移除自訂服務模型。

# Remove Old Glue Kernels jupyter kernelspec remove glue_python_kernel jupyter kernelspec remove glue_scala_kernel # Remove Custom Model cd ~/.aws/models rm -rf glue/