資料處理在 Data Wrangler 中的運作方式 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料處理在 Data Wrangler 中的運作方式

在 Amazon SageMaker Data Wrangler 資料流程中以互動方式使用資料時,Amazon SageMaker Canvas 只會將轉換套用至範例資料集,供您預覽。在 SageMaker Canvas 中完成資料流程後,您可以處理所有資料,並將其儲存在適合機器學習工作流程的位置。

在 Data Wrangler 中完成資料轉換之後,有幾個選項可以繼續:

  • 建立模型。您可以建立 Canvas 模型,並在其中使用準備好的資料直接開始建立模型。您可以在處理整個資料集之後建立模型,或僅匯出您在 Data Wrangler 中使用的範例資料。Canvas 會將您處理的資料 (整個資料集或範例資料) 儲存為 Canvas 資料集。

    我們建議您使用範例資料進行快速反覆運算,但當您想要訓練最終模型時,請使用整個資料。建置表格模型時,大於 5 GB 的資料集會自動縮減取樣至 5 GB,而對於時間序列預測模型,大於 30 GB 的資料集則縮減取樣至 30 GB。

    若要進一步了解如何建立模型,請參閱自訂模型的運作方式

  • 匯出資料。您可以匯出資料以用於機器學習工作流程。當您選擇匯出資料時,您有幾個選項:

    • 您可以將 Canvas 應用程式中的資料儲存為資料集。如需 Canvas 資料集支援檔案類型的詳細資訊,以及將資料匯入 Canvas 時的其他需求,請參閱 建立資料集

    • 您可以將資料儲存至 Amazon S3。根據 Canvas 記憶體可用性,您的資料會在應用程式中處理,然後匯出至 Amazon S3。如果您的資料集大小超過 Canvas 可以處理的大小,則依預設,Canvas 會使用無EMR伺服器任務擴展到多個運算執行個體、處理完整資料集,並將其匯出至 Amazon S3。您也可以手動設定 SageMaker 處理任務,以更精細地控制用於處理資料的運算資源。

  • 匯出資料流程。您可能想要儲存資料流程的程式碼,以便在 Canvas 外部修改或執行轉換。Canvas 為您提供將資料流程轉換儲存為 Jupyter 筆記本中的 Python 程式碼的選項,然後您可以匯出至 Amazon S3,以便在機器學習工作流程的其他位置使用。

當您從資料流程匯出資料並將其儲存為 Canvas 資料集或 Amazon S3 時,Canvas 會在資料流程中建立新的目的地節點,這是顯示您處理資料存放位置的最終節點。如果您想要執行多個匯出操作,您可以將其他目的地節點新增至流程。例如,您可以從資料流程中的不同點匯出資料,以僅套用一些轉換,或者您可以將轉換的資料匯出到不同的 Amazon S3 位置。如需如何新增或編輯目的地節點的詳細資訊,請參閱 新增目的地節點編輯目的地節點

如需使用 Amazon 設定排程 EventBridge 以自動處理和匯出資料的詳細資訊,請參閱 建立排程以自動處理新資料