本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
選取標籤資料
您可以使用 Amazon SageMaker 主控台來選取資料集的一部分以進行標籤。資料必須儲存於 Amazon S3 儲存貯體。您有三種選項:
-
使用完整資料集。
-
選擇隨機選取的資料集範例。
-
使用查詢指定資料集的子集。
選擇建立標籤工作 後,下列選項可在SageMaker主控台
使用完整資料集
當您選擇使用完整資料集時,您必須為資料物件提供資訊清單檔案。您可以提供包含資訊清單檔案的 Amazon S3 儲存貯體路徑,或使用 SageMaker 主控台建立檔案。若要了解如何使用主控台建立資訊清單檔案,請參閱自動化標籤任務的資料設定。
選擇隨機範例
當您想要標籤資料的隨機子集時,請選取 Random sample (隨機樣本)。資料集儲存在 Amazon S3 儲存貯體 (已於輸入資料集的位置欄位指定)。
指定要包含在範例的資料物件百分比後,請選擇建立子集 . SageMaker randomly 為您的標籤工作挑選資料物件。選取物件後,請選擇 Use this subset (使用此子集)。
SageMaker 會為選取的資料物件建立資訊清單檔案。也會修改 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。
指定子集
Amazon S3 Select
Amazon S3 Select 不再提供給新客戶。Amazon S3 Select 的現有客戶可以繼續如常使用此功能。若要進一步了解,請參閱如何在 Amazon S3 中最佳化查詢資料
您可以對物件檔案名稱使用 Amazon S3 SELECT
查詢來指定資料物件的子集。
SQL 查詢的SELECT
陳述式會為您定義。由您提供 WHERE
子句來指定應傳回哪些資料物件。
如需 Amazon S3 SELECT
陳述式的更多相關資訊,請參閱從物件中選取內容。
選擇 Create subset (建立子集) 開始選取,然後選擇 Use this subset (使用此子集) 來使用所選的資料。
SageMaker 會為選取的資料物件建立資訊清單檔案。也會更新 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。