資料處理在 Data Wrangler 中的運作方式

在 Amazon SageMaker Data Wrangler 資料流程中以互動方式使用資料時，Amazon SageMaker Canvas 只會將轉換套用至範例資料集，供您預覽。在 SageMaker Canvas 中完成資料流程後，您可以處理所有資料，並將其儲存在適合機器學習工作流程的位置。

在 Data Wrangler 中完成資料轉換之後，有幾個選項可以繼續：

建立模型。您可以建立 Canvas 模型，並在其中使用準備好的資料直接開始建立模型。您可以在處理整個資料集之後建立模型，或僅匯出您在 Data Wrangler 中使用的範例資料。Canvas 會將您處理的資料（整個資料集或範例資料）儲存為 Canvas 資料集。

我們建議您使用範例資料進行快速反覆運算，但當您想要訓練最終模型時，請使用整個資料。建置表格模型時，大於 5 GB 的資料集會自動縮減取樣至 5 GB，而對於時間序列預測模型，大於 30 GB 的資料集則縮減取樣至 30 GB。

若要進一步了解如何建立模型，請參閱自訂模型的運作方式。
匯出資料。您可以匯出資料以用於機器學習工作流程。當您選擇匯出資料時，您有幾個選項：
- 您可以將 Canvas 應用程式中的資料儲存為資料集。如需 Canvas 資料集支援檔案類型的詳細資訊，以及將資料匯入 Canvas 時的其他需求，請參閱建立資料集。
- 您可以將資料儲存至 Amazon S3。根據 Canvas 記憶體可用性，您的資料會在應用程式中處理，然後匯出至 Amazon S3。如果您的資料集大小超過 Canvas 可以處理的大小，則依預設，Canvas 會使用無EMR伺服器任務擴展到多個運算執行個體、處理完整資料集，並將其匯出至 Amazon S3。您也可以手動設定 SageMaker 處理任務，以更精細地控制用於處理資料的運算資源。
匯出資料流程。您可能想要儲存資料流程的程式碼，以便在 Canvas 外部修改或執行轉換。Canvas 為您提供將資料流程轉換儲存為 Jupyter 筆記本中的 Python 程式碼的選項，然後您可以匯出至 Amazon S3，以便在機器學習工作流程的其他位置使用。

當您從資料流程匯出資料並將其儲存為 Canvas 資料集或 Amazon S3 時，Canvas 會在資料流程中建立新的目的地節點，這是顯示您處理資料存放位置的最終節點。如果您想要執行多個匯出操作，您可以將其他目的地節點新增至流程。例如，您可以從資料流程中的不同點匯出資料，以僅套用一些轉換，或者您可以將轉換的資料匯出到不同的 Amazon S3 位置。如需如何新增或編輯目的地節點的詳細資訊，請參閱新增目的地節點和編輯目的地節點。

如需使用 Amazon 設定排程 EventBridge 以自動處理和匯出資料的詳細資訊，請參閱建立排程以自動處理新資料。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

資料準備聊天

匯出以建立模型