将计算机连接到 EMR Studio 工作空间 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将计算机连接到 EMR Studio 工作空间

Amazon EMR Studio 在EMR集群上使用内核运行笔记本命令。在选择内核之前,您应该将工作区连接到使用 Amazon EC2 实例的集群、Amaz EMR on on EKS 集群或EMR无服务器应用程序。EMRStudio 允许您将工作区连接到新集群或现有集群,并允许您在不关闭工作区的情况下灵活地更改群集。

本节涵盖以下主题,可帮助您使用 EMR Studio 并为其配置集群:

将 Amazon EC2 集群连接到 EMR Studio 工作空间

您可以在创建工作区时将在 Amazon 上运行的集EMR群EC2连接到工作区,也可以将集群连接到现有工作区。如果您要创建和附加集群,请参阅创建新EMR集群并将其附加到 EMR Studio 工作区

注意

Studio 中启用了 Ident IAM ity Center 可信身份传播的工作空间只能连接到启用了 Identity Center 的安全配置的EMR集群。

On create
创建工作区时连接到 Amazon EMR 计算集群
  1. Create a Workspace (创建 Workspace) 对话框中,确保您已经为新 Workspace 选择了子网。展开 Advanced configuration (高级配置) 部分。

  2. 选择 “将工作空间附加到集EMR群”。

  3. EMR集群下拉列表中,选择要连接到工作区的现有EMR集群。

附加集群后,您可以完成 Workspace 创建过程。首次打开新工作区并选择EMR集群面板时,您应该会看到所选集群已连接。

On launch
启动工作区时连接到 Amazon EMR 计算集群
  1. 导航到 Workspace 列表,然后选择要启动的 Workspace 所在行。然后,选择启动 Workspace > 使用选项启动

  2. 选择要连接到您的工作区的EMR集群。

附加集群后,您可以完成 Workspace 创建过程。首次打开新工作区并选择EMR集群面板时,您应该会看到所选集群已连接。

In JupyterLab
将工作区连接到 Amazon EMR 计算集群 JupyterLab
  1. 选择自己的 Workspace,然后选择启动 Workspace > 快速启动

  2. 在里面 JupyterLab,打开左侧边栏中的 “集群” 选项卡。

  3. 选择EC2集群EMR上的下拉列表,或选择集EKS群EMR上的 Amazon。

  4. 选择附加将集群附加到 Workspace。

附加集群后,您可以完成 Workspace 创建过程。首次打开新工作区并选择EMR集群面板时,您应该会看到所选集群已连接。

In the Workspace UI
通过工作区用户界面将工作空间附加到亚马逊EMR计算集群
  1. 在要连接到集群的工作区中,从左侧边栏中选择EMR集群图标以打开集群面板。

  2. 集群类型下,展开下拉列表并选择开EMR启集群EC2

  3. 从下拉列表中选择一个集群。您可能需要先分离现有集群才能启用集群选择下拉列表。

  4. 选择 Attach (附加)。附加集群后,您应该会看到一条成功消息。

将 Amazon EMR on EKS 集群连接到 EMR Studio 工作区

除了使用在亚马逊上运行的 Amazon EMR 集群外EC2,您还可以将工作区连接到 Amaz EMR on on EKS 集群以运行笔记本代码。有关亚马逊EMR的更多信息EKS,请参阅 A maz EMR on 在做什么EKS

在将工作区连接到 Amazon EMR on EKS 集群之前,您的 Studio 管理员必须向您授予访问权限。

注意

在使用IAM身份中心可信身份传播的 EMR Studio 中,您无法在EKS集群EMR上启动 Amazon。

On create
在创建工作区时将 Amaz EMR on 连接到EKS集群
  1. Create a Workspace(创建 Workspace)对话框中,展开 Advanced configuration(高级配置)部分。

  2. 选择将工作空间附加到EKS集群EMR上的 Amazon

  3. Amaz EMR on on EKS c luster 下,从下拉列表中选择一个集群。

  4. Select an endpoint (选择终端节点) 下,选择要附加到 Workspace 的托管式终端节点。托管终端节点是允许 EMR Studio 与您选择的集群进行通信的网关。

  5. 选择创建 Workspace 完成 Workspace 创建过程并附加选定的集群。

附加集群后,您可以完成 Workspace 创建过程。首次打开新工作区并选择EMR集群面板时,您应该会看到所选集群已连接。

In the Workspace UI
从工作区用户界面将 Amazon EMR 连接到EKS集群
  1. 在要连接到集群的工作区中,从左侧边栏中选择EMR集群图标以打开集群面板。

  2. 展开集群类型下拉列表并选择开启EMR集群EKS

  3. EMR集群开启下EKS,从下拉列表中选择一个集群。

  4. Endpoint (终端节点) 下,选择要附加到 Workspace 的托管式终端节点。托管终端节点是允许 EMR Studio 与您选择的集群进行通信的网关。

  5. 选择 Attach (附加)。附加集群后,您应该会看到一条成功消息。

将 Amazon EMR 无服务器应用程序连接到 EMR Studio 工作区

您可以将工作区连接到EMR无服务器应用程序以运行交互式工作负载。有关更多信息,请参阅通过 EMR Studio 使用笔记本通过EMR无服务器运行交互式工作负载

注意

您无法将EMR无服务器应用程序连接到使用 Identity Center 可信IAM身份传播的 EMR Studio。

例 将工作区附加到中的EMR无服务器应用程序 JupyterLab

在将 Workspace 连接到EMR无服务器应用程序之前,您的账户管理员必须按照交互式工作负载所需权限中所述向您授予访问权限

  1. 导航到 EMR Studio,选择您的工作区,然后选择启动工作区 > 快速启动

  2. 在里面 JupyterLab,打开左侧边栏中的 “集群” 选项卡。

  3. 选择EMR无服务器作为计算选项,然后选择EMR无服务器应用程序和运行时角色。

  4. 要将集群附加到您的 Workspace,请选择附加

现在打开此 Workspace 时,您应该会看到已经附加了所选的应用程序。

创建新EMR集群并将其附加到 EMR Studio 工作区

Advanced EMR Studio 用户可以配置在 Amazon 上运行的新EMR集群EC2以与工作区配合使用。新集群默认安装了 EMR Studio 所需的所有大数据应用程序。

要创建集群,您的 Studio 管理员必须首先使用会话策略授予您权限。有关更多信息,请参阅 为 EMR Studio 用户创建权限策略

您可以在 Create a Workspace (创建 Workspace) 对话框中或从 Workspace UI 的 Cluster (集群) 面板中创建新集群。无论哪种方式,您都有两个集群创建选项:

  1. 创建EMR集群-通过选择 Amazon EC2 实例类型和数量来创建EMR集群。

  2. Use a cluster template (使用集群模板) – 通过选择预定义的集群模板预置集群。当您拥有使用集群模板的权限时,才会显示此选项。

    注意

    如果您在 Studio 的 Identity Center 中启用了可信IAM身份传播,则必须使用模板来创建集群。

通过提供集EMR群配置来创建集群
  1. 选择一个起点。

    要... 请执行此操作...
    使用 Create a Workspace (创建 Workspace) 对话框在创建 Workspace 时创建集群。 在 “创建工作区” 对话框中展开 “高级配置” 部分,然后选择 “创建EMR集群”。
    创建工作区后,通过工作区用户界面的EMR集群面板创建集群。 在打开的工作空间的左侧边栏中选择EMR集群选项卡,展开高级配置部分,然后选择创建集群
  2. 输入 Cluster name (集群名称)。命名集群有助于您稍后在 EMR Studio 集群列表中找到它。

  3. 对于 Amazon EMR 版本,请为集群选择亚马逊EMR发行版本。

  4. 例如,为集群选择 Amazon EC2 实例的类型和数量。有关选择实例类型的更多信息,请参阅配置 Amazon EC2 实例。一个实例将用作主节点。

  5. 选择 EMR Studio 可以启动新集群的子网。每个子网选项都经过您的 Studio 管理员的预先批准,您的 Workspace 应该能够连接到列出的任何子网中的集群。

  6. 选择 S 3 作为日志URI存储

  7. 选择创建EMR集群以配置集群。如果您使用创建 Workspace 对话框,请选择创建 Workspace 来创建 Workspace 并预置集群。EMRStudio 配置新集群后,它会将该集群连接到工作区。

使用集群模板创建集群
  1. 选择一个起点。

    要... 请执行此操作...
    使用 Create a Workspace (创建 Workspace) 对话框在创建 Workspace 时创建集群。 展开 Create a Workspace (创建 Workspace) 对话框中的 Advanced configuration (高级配置) 部分,然后选择 Use a cluster template (使用集群模板)
    通过工作区用户界面的EMR集群面板创建集群。 在打开的工作空间的左侧边栏中选择EMR集群选项卡,展开高级配置部分,然后选择集群模板
  2. 从下拉列表中选择集群模板。每个可用的集群模板都包含一个简要说明,以帮助您进行选择。

  3. 您选择的集群模板可能有其他参数,例如 Amazon EMR 发布版本或集群名称。您可以选择或插入值,或使用管理员选择的默认值。

  4. 选择 EMR Studio 可以启动新集群的子网。每个子网选项都经过您的 Studio 管理员的预先批准,您的 Workspace 应该能够连接到任何子网中的集群。

  5. 选择 Use cluster template (使用集群模板) 来预置集群并将其附加到 Workspace。EMRStudio 需要几分钟才能创建集群。如果您使用创建 Workspace 对话框,请选择创建 Workspace 来创建 Workspace 并预置集群。EMRStudio 配置新集群后,它会将该集群连接到您的工作区。

将计算机与 EMR Studio 工作区分离

要交换附加到 Workspace 的集群,您可以从 Workspace UI 分离集群。

从 Workspace 分离集群
  1. 在要与集群分离的工作区中,从左侧边栏中选择EMR集群图标以打开集群面板。

  2. “选择集群” 下,选择 “分离”,然后等待 EMR Studio 分离集群。集群分离后,您将看到一条成功消息。

将EMR无服务器应用程序与 Studio 工作区分离 EMR

要交换附加到 Workspace 的计算资源,您可以通过 Workspace UI 分离应用程序。

  1. 在要与集群分离的工作区中,从左侧边栏中选择 Amazon EMR 计算图标以打开 “计算” 面板。

  2. “选择计算” 下,选择 “分离”,然后等待 EMR Studio 分离应用程序。应用程序分离完成后,您将看到一条成功消息。