使用 Studio 中的 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Studio 中的 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料

Amazon SageMaker Studio 及其舊版 Studio Classic 為資料科學家和機器學習 (ML) 工程師提供工具,以大規模執行資料分析和資料準備。分析、轉換和準備大量資料是任何資料科學和機器學習 (ML) 工作流程的基礎步驟。Studio 和 Studio Classic 都內建與 Amazon EMR 的整合,讓使用者能夠在 JupyterLab 筆記本中管理大規模的互動式資料準備和機器學習工作流程。

Amazon EMR 是受管大數據平台,具有 資源,可協助您使用 Apache Spark、Apache HivePresto、HBase 和 Flink AWS 等上的開放原始碼分析架構執行 PB 級分散式資料處理任務。透過 Studio 和 Studio Classic 與 Amazon EMR 整合,您可以建立、瀏覽、探索和連線至 Amazon EMR 叢集,而無需離開 JupyterLab 或 Studio Classic 筆記本。您還可以透過按一下直接從筆記本存取 Spark UI 來監控和偵錯 Spark 工作負載。

如果您有大規模、長時間執行或複雜的資料處理需求,而這些要求涉及大量資料、需要廣泛的自訂和與其他 服務的整合、需要執行自訂應用程式,或計劃執行 Apache Spark 以外的各種分散式資料處理架構,則應考慮為您的資料準備工作負載使用 Amazon EMR 叢集。

或者,您可以使用 SageMaker 分佈映像1.10或更高版本,直接從 SageMaker AI Studio 中的 JupyterLab 筆記本連線至互動式 EMR Serverless 應用程式。Studio 與 EMR Serverless 的整合可讓您執行開放原始碼大數據分析架構,例如 Apache SparkApache Hive,而無需設定、管理或擴展 Amazon EMR 叢集。EMR Serverless 會根據 EMR Serverless 應用程式的需求,自動佈建和管理基礎運算和記憶體資源。它會動態擴展和縮減資源,向您收費或應用程式消耗的 vCPU、記憶體和儲存資源量。這種無伺服器方法可讓您從 JupyterLab 筆記本執行互動式資料準備工作負載,而不必擔心叢集管理,同時實現高執行個體使用率和成本效益。

如果您的工作負載為短期或間歇性,且不需要持久性叢集,則您應該考慮 EMR Serverless 用於互動式資料準備工作負載;您偏好使用自動資源佈建和終止的無伺服器體驗,避免管理基礎設施的負擔;或您的互動式資料準備任務主要圍繞 Apache Spark 進行。