使用 Amazon 準備數據 EMR - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon 準備數據 EMR

重要

Amazon SageMaker 工作室和 Amazon SageMaker 工作室經典版是您可以用來與之互動的兩個機器學習環境 SageMaker。

如果您的網域是在 2023 年 11 月 30 日之後建立,Studio 就是您的預設體驗。

如果您的網域是在 2023 年 11 月 30 日之前建立的,那麼 Amazon SageMaker 工作室經典版就是您的預設體驗。若要使用工作室,如果 Amazon SageMaker 工作室經典版是您的預設體驗,請參閱從 Amazon SageMaker 工作室經典遷移

當您從 Amazon SageMaker 工作室經典版遷移到 Amazon SageMaker 工作室時,功能可用性不會損失。Studio 傳統版也會以應用程式的形式存在於 Amazon SageMaker Studio 中,以協助您執行舊版機器學習工作流程。

Amazon SageMaker Studio 和 Studio Classic 隨附 Amazon 的內建整合功能EMR,資料科學家和資料工程師可以直接從筆記型電腦執行 PB 規模的互動式資料準備和機器學習 (ML)。在 JupyterLab 和 Studio Classic 筆記本中,他們可以探索並連接到現有的 Amazon EMR 叢集,然後使用 Apache Spark、Apache Hive普雷斯托以互動方式探索、視覺化和準備機器學習的大規模資料。只需單擊一下,他們就可以訪問 Spark UI 來監視 Spark 任務的狀態和指標,而無需離開筆記本。

管理員可以建立定義 Amazon EMR 叢集的AWS CloudFormation 範本。然後,他們可以讓這些叢集範本可AWS Service Catalog供 Studio 和工作室傳統版使用者啟動。然後,資料科學家可以選擇預先定義的範本,直接從其 Studio 環境自行佈建 Amazon EMR 叢集。管理員可以進一步參數化範本,讓使用者在預先定義的值中選擇叢集的各個層面。例如,使用者可能想要指定核心節點的數目,或從下拉式功能表中選取節點的執行個體類型。

管理員可以使用 AWS CloudFormation此功能控制 Amazon EMR 叢集的組織、安全和聯網設定。然後,資料科學家和資料工程師可以為其工作負載自訂這些範本,以直接從 Studio 和 Studio Classic 建立隨需 Amazon EMR 叢集,而無需設定複雜的組態。使用者可以在使用後終止 Amazon EMR 叢集。