用户指南 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

用户指南

本节介绍数据科学家和数据工程师如何从 Studio 或 Studio Classic 启动、发现、连接或终止亚马逊EMR集群。

管理员必须先在 Studio 环境中配置必要的设置,然后用户才能列出或启动集群。有关管理员如何配置 Studio 环境以允许自行配置和列出 Amazon EMR 集群的信息,请参阅管理员指南

支持从 Studio 或 Studio Classic 连接到亚马逊EMR集群的映像和内核

随附以下图像和内核 sagemaker-studio-analytics-extension,该 JupyterLab 扩展程序使用 A pache Livy 通过SparkMagic库连接到远程 Spark (AmazonEMR) 集群。

  • 对于 Studio 用户: SageMaker 分发版是用于数据科学的 Docker 环境,用作 JupyterLab笔记本实例的默认映像。所有版本的SageMaker发行版都sagemaker-studio-analytics-extension已预装。

  • 适用于 Studio Classic 用户:以下图像预装有sagemaker-studio-analytics-extension

    • DataScience — Python 3 内核

    • DataScience 2.0 — Python 3 内核

    • DataScience 3.0 — Python 3 内核

    • SparkAnalytics 1.0 — SparkMagic 还有内 PySpark 核

    • SparkAnalytics 2.0 — SparkMagic 还有内 PySpark 核

    • SparkMagic — SparkMagic 和内 PySpark 核

    • PyTorch 1.8 — Python 3 内核

    • TensorFlow 2.6 — Python 3 内核

    • TensorFlow 2.11 — Python 3 内核

要使用其他内置映像或您自己的映像连接到 Amazon EMR 集群,请按照中的说明进行操作自带映像

自带映像

要在 Studio 或 Studio Classic 中使用自己的映像并允许您的笔记本电脑连接到亚马逊EMR集群,请在内核中安装以下sagemaker-studio-analytics-extension扩展程序。它支持通过SparkMagic库将 SageMaker Studio 或 Studio Classic 笔记本电脑连接到 Spark (AmazonEMR) 集群。

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

此外,要EMR使用 Kerberos 身份验证连接到亚马逊,您必须安装 kinit 客户端。根据您的操作系统,安装 kinit 客户端的命令可能会有所不同。要自带 Ubuntu(基于 Debian)映像,请使用 apt-get install -y -qq krb5-user 命令。

有关在 SageMaker Studio 或 Studio Classic 中自带图片的更多信息,请参阅自带 SageMaker 图片