本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Studio 中的 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料
Amazon SageMaker Studio 及其舊版 Studio Classic 為資料科學家和機器學習 (ML) 工程師提供工具,以大規模執行資料分析和資料準備。分析、轉換和準備大量資料是任何資料科學和機器學習 (ML) 工作流程的基礎步驟。Studio 和 Studio Classic 都內建與 Amazon EMR 的整合,讓使用者能夠在 JupyterLab 筆記本中管理大規模的互動式資料準備和機器學習工作流程。
Amazon EMR 是受管大數據平台,具有 資源,可協助您使用 Apache Spark、Apache
如果您有大規模、長時間執行或複雜的資料處理需求,而這些要求涉及大量資料、需要廣泛的自訂和與其他 服務的整合、需要執行自訂應用程式,或計劃執行 Apache Spark 以外的各種分散式資料處理架構,則應考慮為您的資料準備工作負載使用 Amazon EMR 叢集。
或者,您可以使用 SageMaker 分佈映像1.10
或更高版本,直接從 SageMaker AI Studio 中的 JupyterLab 筆記本連線至互動式 EMR Serverless 應用程式。Studio 與 EMR Serverless 的整合可讓您執行開放原始碼大數據分析架構,例如 Apache Spark
如果您的工作負載為短期或間歇性,且不需要持久性叢集,則您應該考慮 EMR Serverless 用於互動式資料準備工作負載;您偏好使用自動資源佈建和終止的無伺服器體驗,避免管理基礎設施的負擔;或您的互動式資料準備任務主要圍繞 Apache Spark 進行。