本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon SageMaker AI Data Wrangler 準備和匯入大量資料
重要
當您使用 Data Wrangler 時,會產生 SageMaker AI 成本。如需費用和價格的完整清單,請參閱 Amazon SageMaker AI 定價
建立資料集群組後,您可以使用 Amazon SageMaker AI Data Wrangler (Data Wrangler) 將 40 多個來源的資料匯入 Amazon Personalize 資料集。Data Wrangler 是 Amazon SageMaker AI Studio Classic 的一項功能,提供end-to-end解決方案來匯入、準備、轉換和分析資料。您無法使用 Data Wrangler 來準備資料,並將資料匯入動作資料集或動作互動資料集。
當您使用 Data Wrangler 來準備和匯入資料時,您會使用資料流程。資料流程會定義一系列機器學習資料準備步驟,從匯入資料開始。每次將步驟新增至流程時,Data Wrangler 都會對您的資料採取動作,例如轉換資料或產生視覺化效果。
以下是您可以新增至流程以準備 Amazon Personalize 資料的一些步驟:
-
洞見:您可以將 Amazon Personalize 特定洞見步驟新增至流程。這些洞見可協助您了解資料,以及您可以採取哪些動作來改善資料。
-
視覺化:您可以新增視覺化步驟來產生圖形,例如長條圖和散佈圖。圖形可協助您探索資料中的問題,例如極端值或遺失值。
-
轉換:您可以使用 Amazon Personalize 的特定和一般轉換步驟,確保您的資料符合 Amazon Personalize 要求。Amazon Personalize 轉換可協助您根據 Amazon Personalize 資料集類型,將資料欄映射至必要的資料欄。
如果您需要在將資料匯入 Amazon Personalize 之前離開 Data Wrangler,您可以在從 Amazon Personalize 主控台啟動 Data Wrangler 時,選擇相同的資料集類型,以返回您離開的位置。或者,您可以直接透過 SageMaker AI Studio Classic 存取 Data Wrangler。
建議您將資料從 Data Wrangler 匯入 Amazon Personalize,如下所示。轉換、視覺化和分析步驟是選用的、可重複的,並且可以按任何順序完成。
-
設定許可 - 設定 Amazon Personalize 和 SageMaker AI 服務角色的許可。並為您的使用者設定許可。
-
從 Amazon Personalize 主控台在 SageMaker AI Studio Classic 中啟動 Data Wrangler - 使用 Amazon Personalize 主控台設定 SageMaker AI 網域,並在 SageMaker AI Studio Classic 中啟動 Data Wrangler。
-
將您的資料匯入 Data Wrangler - 將 40 多個來源的資料匯入 Data Wrangler。來源包括 Amazon Redshift、Amazon EMR 或 Amazon Athena 等 AWS 服務,以及 Snowflake 或 DataBricks 等第三方。
-
轉換您的資料 - 使用 Data Wrangler 轉換您的資料以符合 Amazon Personalize 需求。
-
視覺化和分析您的資料 - 使用 Data Wrangler 視覺化您的資料,並透過 Amazon Personalize 特定洞見進行分析。
-
處理和匯入資料至 Amazon Personalize - 使用 SageMaker AI Studio Classic Jupyter 筆記本,將已處理的資料匯入 Amazon Personalize。
其他資訊
下列資源提供有關使用 Amazon SageMaker AI Data Wrangler 和 Amazon Personalize 的其他資訊。
-
如需逐步解說處理和轉換範例資料集的教學課程,請參閱《Amazon SageMaker AI 開發人員指南》中的示範:Data Wrangler Titanic 資料集演練。本教學課程介紹 Data Wrangler 的欄位和函數。
-
如需有關加入 Amazon SageMaker AI 網域的資訊,請參閱《Amazon SageMaker AI 開發人員指南》中的快速加入 Amazon SageMaker AI 網域。 Amazon SageMaker
-
如需 Amazon Personalize 資料需求的資訊,請參閱準備 Amazon Personalize 的訓練資料。