教程:将 SageMaker 笔记本与您的开发终端节点结合使用 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:将 SageMaker 笔记本与您的开发终端节点结合使用

在 AWS Glue 中,您可以创建开发终端节点,然后创建 SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。SageMaker 笔记本是一个运行 Jupyter Notebook 应用程序的完全托管的机器学习计算实例。

  1. 在 AWS Glue 控制台中,选择 Dev endpoints (开发终端节点) 以导航到开发终端节点列表。

  2. 选中要使用的开发终端节点名称旁边的复选框,然后在 Action (操作) 菜单上,选择 Create SageMaker notebook (创建 SageMaker 笔记本)

  3. 填写 Create and configure a notebook (创建和配置笔记本) 页面,如下所示:

    1. 输入笔记本名称。

    2. Attach to development endpoint (附加到开发终端节点) 下,确认开发终端节点。

    3. 选择或创建一个 AWS Identity and Access Management(IAM)角色。

      建议您创建角色。如果您使用现有角色,请确保该角色具有所需的权限。有关更多信息,请参阅 步骤 6:为 SageMaker 笔记本创建 IAM policy

    4. (可选)选择 VPC、子网和一个或多个安全组。

    5. (可选)选择 AWS Key Management Service 加密密钥。

    6. (可选)为笔记本实例添加标签。

  4. 选择创建笔记本。在 Notebooks (笔记本) 页面上,选择右上角的刷新图标,然后继续,直至 Status (状态) 显示 Ready

  5. 选中新笔记本名称旁边的复选框,然后选择 Open notebook (打开笔记本)

  6. 创建新的笔记本:在 jupyter 页面上,选择 New (新建),然后选择 Sparkmagic (PySpark)

    现在,您的屏幕上显示的内容应类似于:

    jupyter 页面具有菜单栏、工具栏和可在其中输入语句的宽文本字段。
  7. (可选)在页面顶部,选择 Untitled (无标题),然后为笔记本提供一个名称。

  8. 要启动 Spark 应用程序,请在笔记本中输入以下命令,然后在工具栏中选择 Run (运行)

    spark

    在短暂的延迟后,您将会看到以下响应:

    系统响应显示 Spark 应用程序状态并输出以下消息:“SparkSession available as 'spark' (SparkSession 用作‘spark’)”。
  9. 创建动态帧并对其运行查询:复制、粘贴并运行以下代码,这将输出 persons_json 表的计数和架构。

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()