設定資料集的自動更新 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定資料集的自動更新

將初始資料集匯入 Amazon SageMaker Canvas 之後,您可能還有其他要新增至資料集的資料。例如,您可能會在每週結束時取得要新增至資料集的庫存資料。您可以更新現有的資料集,並在其中新增或移除檔案,而不必多次匯入資料。

注意

您只能更新透過本機上傳或 Amazon S3 匯入的資料集。

透過自動資料集更新,您可以指定 Canvas 依您指定的頻率檢查檔案的位置。如果您在更新期間匯入新檔案,則檔案的結構描述必須與現有資料集完全相符。

每次更新您的資料集時,Canvas 就會建立新版本的資料集。您只能使用最新版本的資料集來建立模型或產生預測。如需檢視資料集的版本歷史記錄的更多相關資訊,請參閱檢視資料集詳細資訊

您也可以將資料集更新與自動批次預測搭配使用,這會在每次您更新資料集時啟動批次預測工作。如需詳細資訊,請參閱 SageMaker Canvas 中的批次預測

下一節說明如何自動更新資料集。

自動更新是指設定 Canvas 組態,使其以指定頻率更新資料集。如果您定期獲得要新增至資料集的新資料檔案,建議您使用此選項。

設定自動更新組態時,您可以指定上傳檔案的 Amazon S3 位置,以及 Canvas 檢查位置和匯入檔案的頻率。每個 Canvas 更新資料集的執行個體都稱為工作。Canvas 會針對各個工作匯入 Amazon S3 位置中的所有檔案。如果您在資料集中擁有與現有檔案名稱相同的檔案,則 Canvas 會用新檔案覆寫舊檔案。

針對自動更新資料集,Canvas 不會執行結構描述驗證。如果在自動更新期間匯入的檔案結構描述與現有檔案的結構描述不符,或超過大小限制 (請參閱匯入資料集以取得檔案大小限制的資料表),則在工作執行時會發生錯誤。

注意

您最多只能在 Canvas 應用程式中設定 20 個自動組態。此外,Canvas 只會在您登入 Canvas 應用程式時執行自動更新。如果您登出 Canvas 應用程式,自動更新會暫停,直到您重新登入為止。

若要設定資料集的自動更新,請執行下列動作:

  1. 開啟 SageMaker Canvas 應用程式。

  2. 在左側的導覽窗格中,選擇資料集

  3. 從資料集清單中,選擇您要更新的資料集。

  4. 選擇更新資料集下拉式清單,然後選擇自動更新。您會被導向至資料集的自動更新索引標籤。

  5. 開啟啟用自動更新切換。

  6. 針對指定資料來源,輸入您計劃定期上傳檔案的資料夾 Amazon S3 路徑。

  7. 選擇頻率,選取每小時每週每天

  8. 針對指定開始時間,請使用行事曆和時間選擇器來選取您希望第一次自動更新工作開始的時間。

  9. 當您準備好建立自動更新組態時,請選擇儲存

Canvas 會在指定開始時間開始自動更新節奏的第一個工作。