本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
In (入) AWS Glue,您可以建立開發端點,然後建立 SageMaker AI 筆記本,以協助開發您的 ETL和機器學習指令碼。 SageMaker AI 筆記本是執行 Jupyter Notebook 應用程式的完整受管機器學習運算執行個體。
-
在 中 AWS Glue 主控台,選擇開發端點以導覽至開發端點清單。
-
選取您要使用的開發端點名稱旁的核取方塊,然後在動作功能表中,選擇建立 SageMaker筆記本。
-
填寫 Create and configure a notebook (建立並設定筆記本) 頁面,如下所示:
-
輸入記事本名稱。
-
在 Attach to development endpoint (連接至開發端點),驗證開發端點。
-
建立或選擇 AWS Identity and Access Management (IAM) 角色。
建議您建立角色。如果您使用現有角色,請確定它具有必要的權限。如需詳細資訊,請參閱步驟 6:建立 SageMaker AI 筆記本IAM的政策。
-
(選用) 選擇 VPC、子網路和一或多個安全群組。
-
(選用) 選擇 AWS Key Management Service 加密金鑰。
-
(選用) 為筆記本執行個體新增標籤。
-
-
選擇建立筆記本。在 Notebooks (筆記本) 頁面中,選擇右上角的重新整理圖示,然後繼續操作,直到 Status (狀態) 顯示
Ready
為止。 -
選取新筆記本名稱旁的核取方塊,然後選擇 Open notebook (開啟筆記本)。
-
建立新的筆記本:在 Jupyter 頁面上,選擇新增,然後選擇 Sparkmagic (PySpark)。
您的螢幕畫面現在看起來應該與下列類似:
-
(選用) 在頁面頂端,選擇 Untitled (為命名),然後為筆記本命名。
-
若要啟動 Spark 應用程式,請在記事本中輸入下列指令,然後在工具列中選擇 Run (執行)。
spark
短暫的等待之後,您應可看到以下回應:
-
建立動態框架並針對其執行查詢:複製、貼上並執行下列程式碼,輸出
persons_json
資料表的計數和結構描述。import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()