使用 Amazon EMR 准备数据 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon EMR 准备数据

重要

Amazon SageMaker Studio 和 Amazon SageMaker Studio Classic 是你可以用来与 SageMaker AI 交互的两个机器学习环境。

如果您的域是在 2023 年 11 月 30 日之后创建的,Studio 就是您的默认体验。

如果您的域名是在 2023 年 11 月 30 日之前创建的,那么亚马逊 SageMaker Studio 经典版是您的默认体验。如果您的默认体验是亚马逊 SageMaker Studio Classic,则要使用 Studio,请参阅从亚马逊 SageMaker Studio 经典版迁移

当您从 Amazon SageMaker Studio Classic 迁移到 Amazon SageMaker Studio 时,功能可用性不会受到影响。Studio Classic 还作为应用程序存在于 Amazon SageMaker Studio 中,可帮助您运行传统的机器学习工作流程。

Amazon SageMaker Studio 和 Studio Classic 内置了与亚马逊 EMR 的集成。在 JupyterLab Studio Classic 笔记本电脑中,数据科学家和数据工程师可以发现并连接到现有的 Amazon EMR 集群,然后使用 A pache Spark、Apache H ive 或 Presto 以交互方式探索、可视化和准备用于机器学习的大规模数据。只需点击一下,他们就可以访问 Spark UI,监控 Spark 作业的状态和指标,而无需离开笔记本。

管理员可以创建 AWS CloudFormation 模板来定义 Amazon EMR 集群。然后,他们就可以在 AWS Service Catalog 中提供这些集群模板,供 Studio 和 Studio Classic 用户启动。然后,数据科学家可以选择一个预定义模板,直接从他们的 Studio 环境中自行配置 Amazon EMR 集群。管理员可以进一步对模板进行参数化,让用户在预定义值范围内选择集群的各个方面。例如,用户可能希望指定核心节点的数量,或从下拉菜单中选择节点的实例类型。

管理员可以使用 AWS CloudFormation,控制 Amazon EMR 集群的组织、安全和联网设置。然后,数据科学家和数据工程师可以根据自己的工作负载定制这些模板,直接从 Studio 和 Studio Classic 创建按需 Amazon EMR 集群,而无需设置复杂的配置。用户可以在使用后终止 Amazon EMR 集群。