本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon EMR 准备数据
Amazon SageMaker Studio Classic 内置了 Amazon EMR 集成,数据科学家和数据工程师可以直接通过 Studio Classic 笔记本执行 PB 级的交互式数据准备和机器学习 (ML)。在笔记本中,他们可以发现并连接到现有的 Amazon EMR 集群,然后使用 Apache Spark
管理员可以使用AWS Service Catalog来定义 Studio Classic 用户可以访问的 Amazon EMR 集群的AWS CloudFormation 模板。然后,数据科学家可以选择预定义的模板,直接从 Amazon Studio Classic 笔记本上自行配置 A SageMaker mazon EMR 集群。管理员可以进一步参数化模板,让用户在预定义值的范围内对集群进行各种选择,以匹配其工作负载。例如,数据科学家或数据工程师可能希望指定不超过预定最大值的集群核心节点数量,或者从下拉菜单中选择节点的实例类型。
-
如果您是管理员,请确保您已启用 Amazon SageMaker Studio Classic 笔记本电脑和 Amazon EMR 集群之间的通信。有关说明,请参阅配置联网(面向管理员)部分。启用此通信后,您可以选择:
-
在中定义集群模板, AWS Service Catalog 并通过Studio Classic的笔记本确保这些模板的可用性:在 AWS Service Catalog 中配置 Amazon EMR 模板(面向管理员).
-
直接从 Studio Classic 的笔记本电脑配置现有 Amazon EMR 集群的可发现性:。配置 Amazon EMR 集群的可发现性(面向管理员)
-
-
如果您是数据科学家或数据工程师,想要自行预置 Amazon EMR 集群,请参阅从 Studio Classic 启动亚马逊 EMR 集群。
-
如果您是一名数据科学家或数据工程师,希望发现并连接到 Studio Classic 中的现有 Amazon EMR 集群,请参阅。使用 Studio Classic 笔记本电脑中的 Amazon EMR 集群