本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AWS Glue 互動式工作階段進行資料準備
AWS Glue 互動式工作階段是一種無伺服器服務,您可以註冊收集、轉換、清理和準備資料,以用於資料湖和資料管道中的儲存。 AWS Glue 互動式工作階段提供隨需無伺服器 Apache Spark 執行期環境,您可以在專用資料處理單元 (DPU) 上在幾秒鐘內初始化,而無需佈建和管理複雜的運算叢集基礎設施。初始化後,您可以在 Studio 或 Studio Classic 筆記本中瀏覽 AWS Glue 資料目錄、執行大型查詢 AWS Lake Formation、存取受 管理的資料,並使用 Spark 以互動方式分析和準備資料。然後,您可以使用準備好的資料,在 SageMaker Studio 或 Studio Classic 中使用專用 ML 工具來訓練、調校和部署模型。當您想要具有可設定性和彈性的中等控制之無伺服器 Spark 服務時,應考慮資料準備工作負載的 AWS Glue 互動式工作階段。
您可以在 Studio 或 Studio Classic 中啟動 JupyterLab 筆記本來啟動 AWS Glue 互動式工作階段。啟動筆記本時,請選擇內建Glue PySpark and Ray
或Glue Spark
核心。這會自動啟動無伺服器互動式 Spark 工作階段。您不需要佈建或管理任何運算叢集或基礎架構。初始化後,您可以從 Studio 或 Studio Classic 筆記本中探索資料並與之互動。
在 Studio 或 Studio Classic 中啟動 AWS Glue 互動式工作階段之前,您需要設定適當的角色和政策。此外,您可能需要提供其他資源的存取權,例如 Amazon S3 儲存貯體。如需必要 IAM 政策的詳細資訊,請參閱Studio 或 Studio Classic 中 AWS Glue 互動式工作階段的許可。
Studio 和 Studio Classic 為您的 AWS Glue 互動式工作階段提供預設組態,不過,您可以使用 AWS Glue Jupyter 魔術命令的完整目錄來進一步自訂您的環境。如需您可以在 AWS Glue 互動式工作階段中使用的預設和其他 Jupyter 魔術的相關資訊,請參閱 在 Studio 或 Studio Classic 中設定 AWS Glue 互動式工作階段。
-
對於啟動 AWS Glue 互動式工作階段的 Studio Classic 使用者,他們可以從下列映像和核心中選取 :
-
影像:
SparkAnalytics 1.0
、SparkAnalytics 2.0
-
核心:
Glue Python [PySpark and Ray]
和Glue Spark
-
-
對於 Studio 使用者,請使用預設的 SageMaker 分佈映像
,然後選取 Glue Python [PySpark and Ray]
或Glue Spark
核心。