本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
用户指南
本节介绍数据科学家和数据工程师如何从 Studio 或 Studio Classic 启动、发现、连接或终止亚马逊EMR集群。
管理员必须先在 Studio 环境中配置必要的设置,然后用户才能列出或启动集群。有关管理员如何配置 Studio 环境以允许自行配置和列出 Amazon EMR 集群的信息,请参阅管理员指南。
主题
支持从 Studio 或 Studio Classic 连接到亚马逊EMR集群的映像和内核
随附以下图像和内核 sagemaker-studio-analytics-extension
-
对于 Studio 用户: SageMaker 分发版是用于数据科学的 Docker 环境,用作 JupyterLab笔记本实例的默认映像。所有版本的SageMaker发行
版都 sagemaker-studio-analytics-extension
已预装。 -
适用于 Studio Classic 用户:以下图像预装有
sagemaker-studio-analytics-extension
:-
DataScience — Python 3 内核
-
DataScience 2.0 — Python 3 内核
-
DataScience 3.0 — Python 3 内核
-
SparkAnalytics 1.0 — SparkMagic 还有内 PySpark 核
-
SparkAnalytics 2.0 — SparkMagic 还有内 PySpark 核
-
SparkMagic — SparkMagic 和内 PySpark 核
-
PyTorch 1.8 — Python 3 内核
-
TensorFlow 2.6 — Python 3 内核
-
TensorFlow 2.11 — Python 3 内核
-
要使用其他内置映像或您自己的映像连接到 Amazon EMR 集群,请按照中的说明进行操作自带映像。
自带映像
要在 Studio 或 Studio Classic 中使用自己的映像并允许您的笔记本电脑连接到亚马逊EMR集群,请在内核中安装以下sagemaker-studio-analytics-extension
pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension
此外,要EMR使用 Kerberos 身份验证连接到亚马逊,您必须安装 kinit 客户端。根据您的操作系统,安装 kinit 客户端的命令可能会有所不同。要自带 Ubuntu(基于 Debian)映像,请使用 apt-get
install -y -qq krb5-user
命令。
有关在 SageMaker Studio 或 Studio Classic 中自带图片的更多信息,请参阅自带 SageMaker 图片。