使用 Amazon EMR 准备数据 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon EMR 准备数据

Amazon SageMaker Studio Classic 内置了 Amazon EMR 集成,数据科学家和数据工程师可以直接通过 Studio Classic 笔记本执行 PB 级的交互式数据准备和机器学习 (ML)。在笔记本中,他们可以发现并连接到现有的 Amazon EMR 集群,然后使用 Apache SparkApache HivePresto 以交互方式探索、可视化和准备大量的数据用于机器学习。此外,用户只需单击一下即可访问 Spark 用户界面,通过他们的 Studio Classic 笔记本电脑监控自己的 Spark 作业。

管理员可以使用AWS Service Catalog来定义 Studio Classic 用户可以访问的 Amazon EMR 集群的AWS CloudFormation 模板。然后,数据科学家可以选择预定义的模板,直接从 Amazon Studio Classic 笔记本上自行配置 A SageMaker mazon EMR 集群。管理员可以进一步参数化模板,让用户在预定义值的范围内对集群进行各种选择,以匹配其工作负载。例如,数据科学家或数据工程师可能希望指定不超过预定最大值的集群核心节点数量,或者从下拉菜单中选择节点的实例类型。