本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
教程:将 SageMaker 笔记本与您的开发终端节点结合使用
在 AWS Glue 中,您可以创建开发终端节点,然后创建 SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。SageMaker 笔记本是一个运行 Jupyter Notebook 应用程序的完全托管的机器学习计算实例。
-
在 AWS Glue 控制台中,选择 Dev endpoints (开发终端节点) 以导航到开发终端节点列表。
-
选中要使用的开发终端节点名称旁边的复选框,然后在 Action (操作) 菜单上,选择 Create SageMaker notebook (创建 SageMaker 笔记本)。
-
填写 Create and configure a notebook (创建和配置笔记本) 页面,如下所示:
-
输入笔记本名称。
-
在 Attach to development endpoint (附加到开发终端节点) 下,确认开发终端节点。
-
选择或创建一个 AWS Identity and Access Management(IAM)角色。
建议您创建角色。如果您使用现有角色,请确保该角色具有所需的权限。有关更多信息,请参阅 步骤 6:为 SageMaker 笔记本创建 IAM policy。
-
(可选)选择 VPC、子网和一个或多个安全组。
-
(可选)选择 AWS Key Management Service 加密密钥。
-
(可选)为笔记本实例添加标签。
-
-
选择创建笔记本。在 Notebooks (笔记本) 页面上,选择右上角的刷新图标,然后继续,直至 Status (状态) 显示
Ready
。 -
选中新笔记本名称旁边的复选框,然后选择 Open notebook (打开笔记本)。
-
创建新的笔记本:在 jupyter 页面上,选择 New (新建),然后选择 Sparkmagic (PySpark)。
现在,您的屏幕上显示的内容应类似于:
-
(可选)在页面顶部,选择 Untitled (无标题),然后为笔记本提供一个名称。
-
要启动 Spark 应用程序,请在笔记本中输入以下命令,然后在工具栏中选择 Run (运行)。
spark
在短暂的延迟后,您将会看到以下响应:
-
创建动态帧并对其运行查询:复制、粘贴并运行以下代码,这将输出
persons_json
表的计数和架构。import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()