使用 Amazon Data Wrangler 準備 ML SageMaker 資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon Data Wrangler 準備 ML SageMaker 資料

重要

Amazon SageMaker Data Wrangler 已整合至 Amazon SageMaker Canvas。在 SageMaker Canvas 的新 Data Wrangler 體驗中,除了視覺化界面之外,您還可以使用自然語言界面來探索和轉換您的資料。如需 SageMaker Canvas 中 Data Wrangler 的詳細資訊,請參閱 資料準備

Amazon SageMaker Data Wrangler (Data Wrangler) 是 Amazon SageMaker Studio Classic 的一項功能,可提供 end-to-end匯入、準備、轉換、使資料成為特徵和分析資料的解決方案。您可以將 Data Wrangler 資料準備流程整合到您的機器學習 (ML) 工作流程中,幾乎不使用程式碼,簡化和精簡資料預先處理和特徵工程。您也可以新增自己的 Python 指令碼和轉換來自訂工作流程。

Data Wrangler 提供下列核心功能,協助您分析和準備機器學習應用程式的資料。

  • 匯入 – 連線至 Amazon Simple Storage Service (Amazon S3)、 Amazon Athena (Athena)、Amazon Redshift、Snowflake 和 Databricks 並從中匯入資料。

  • 資料流程——建立資料流程來定義一系列機器學習資料準備步驟。您可以使用一個流程來合併不同資料來源的資料集、識別要套用至資料集的轉換數量和類型,以及定義可整合至機器學習管道的資料準備工作流程。

  • 轉換——使用字串、向量和數值資料格式化工具等標準轉換來清理及轉換資料集。使用文字、日期/時間內嵌項目和分類編碼等轉換,將資料特徵化。

  • 產生資料洞見——使用 Data Wrangler 資料洞見和品質報告,自動驗證資料品質並偵測資料中的異常情況。

  • 分析——在流程中的任何時間點分析您的資料集中的特徵。Data Wrangler 包含散佈圖和長條圖等內建資料視覺化工具,以及目標洩漏分析和快速建模等資料分析工具,以了解特徵相互關聯性。

  • 匯出——將資料準備工作流程匯出至其他位置。以下為範例位置:

    • Amazon Simple Storage Service (Amazon S3) 儲存貯體

    • Amazon SageMaker Pipelines – 使用 Pipelines 自動化模型部署。您可以將已轉換的資料直接匯出至管道。

    • Amazon SageMaker Feature Store – 將功能及其資料存放在集中式存放區。

    • Python 指令碼——將資料及其轉換存放在自訂工作流程的 Python 指令碼中。

要開始使用 Data Wrangler,請參閱開始使用 Data Wrangler

重要

Data Wrangler 不再支援 Jupyter Lab 第 1 版 (JL1)。若要存取最新功能和更新,請更新至 Jupyter Lab 第 3 版。如需升級的詳細資訊,請參閱從主控台檢視和更新應用程式的 JupyterLab 版本

重要

本指南中的資訊和程序使用最新版本的 Amazon SageMaker Studio Classic。如需有關將 Studio Classic 更新至最新版本的資訊,請參閱 Amazon SageMaker Studio Classic UI 概觀

您必須使用 Studio Classic 1.3.0 版或更新版本。使用下列程序開啟 Amazon SageMaker Studio Classic,並查看您正在執行的版本。

若要開啟 Studio Classic 並檢查其版本,請參閱下列程序。

  1. 使用 中的步驟必要條件透過 Amazon SageMaker Studio Classic 存取 Data Wrangler。

  2. 在您要用來啟動 Studio Classic 的使用者旁邊,選取啟動應用程式

  3. 選擇 Studio

  4. 載入 Studio Classic 之後,選取檔案 ,然後選取新增 ,然後選取終端機

    步驟 4 中所述的 Studio Classic 內容選單選項。
  5. 啟動 Studio Classic 後,選取檔案 ,然後選取,然後選取終端機

  6. 輸入 cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@" 以列印 Studio Classic 執行個體的版本。您必須具有 Studio Classic 1.3.0 版才能使用 Snowflake。

    在 Studio Classic 中開啟終端機視窗,其中包含步驟 6 的命令,已複製並貼上。

您可以從 內更新 Amazon SageMaker Studio Classic AWS Management Console。如需更新 Studio Classic 的詳細資訊,請參閱 Amazon SageMaker Studio Classic UI 概觀