資料準備 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料準備

注意

過去,Amazon SageMaker Data Wrangler 是 SageMaker Studio Classic 體驗的一部分。現在,如果您使用新的 Studio 體驗更新至 ,則必須使用 SageMaker Canvas 來存取 Data Wrangler 並接收最新的功能更新。如果您一直使用 Studio Classic 中的 Data Wrangler,且想要遷移至 Canvas 中的 Data Wrangler,則可能需要授予其他許可,才能建立和使用 Canvas 應用程式。如需詳細資訊,請參閱(選用) 從 Studio Classic 中的 Data Wrangler 遷移至 SageMaker Canvas

若要了解如何從 Studio Classic 中的 Data Wrangler 遷移資料流程,請參閱 (選用) 將資料從 Studio Classic 遷移至 Studio

使用 Amazon SageMaker Canvas 中的 Amazon SageMaker Data Wrangler 來準備、使資料成為特徵和分析資料。您可以將 Data Wrangler 資料準備流程整合到您的機器學習 (ML) 工作流程中,幾乎不使用程式碼,簡化和精簡資料預先處理和特徵工程。您也可以新增自己的 Python 指令碼和轉換來自訂工作流程。

  • 資料流程——建立資料流程來定義一系列機器學習資料準備步驟。您可以使用一個流程來合併不同資料來源的資料集、識別要套用至資料集的轉換數量和類型,以及定義可整合至機器學習管道的資料準備工作流程。

  • 轉換——使用字串、向量和數值資料格式化工具等標準轉換來清理及轉換資料集。使用文字、日期/時間內嵌項目和分類編碼等轉換,將資料特徵化。

  • 產生 Data Insights – 使用 Data Wrangler Data Quality and Insights 報告自動驗證資料品質並偵測資料中的異常。

  • 分析——在流程中的任何時間點分析您的資料集中的特徵。Data Wrangler 包含散佈圖和長條圖等內建資料視覺化工具,以及目標洩漏分析和快速建模等資料分析工具,以了解特徵相互關聯性。

  • 匯出——將資料準備工作流程匯出至其他位置。以下為範例位置:

    • Amazon Simple Storage Service (Amazon S3) 儲存貯體

    • Amazon SageMaker Feature Store – 將功能及其資料存放在集中式存放區。

  • 自動化資料準備 – 從資料流程建立機器學習工作流程。

    • Amazon SageMaker Pipelines – 建置工作流程來管理 SageMaker 資料準備、模型訓練和模型部署任務。

    • 序列推論管道 – 從資料流程建立序列推論管道。使用它對新資料進行預測。

    • Python 指令碼——將資料及其轉換存放在自訂工作流程的 Python 指令碼中。