本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
選取標籤資料
您可以使用 Amazon SageMaker AI 主控台來選取資料集的一部分以進行標記。資料必須儲存於 Amazon S3 儲存貯體。您有三種選項:
-
使用完整資料集。
-
選擇隨機選取的資料集範例。
-
使用查詢指定資料集的子集。
選取建立標籤工作後,以下選項可在 SageMaker AI 主控台
使用完整資料集
當您選擇使用完整資料集時,您必須為資料物件提供資訊清單檔案。您可以提供包含資訊清單檔案的 Amazon S3 儲存貯體路徑,或使用 SageMaker AI 主控台建立檔案。若要了解如何使用主控台建立資訊清單檔案,請參閱自動化標記任務的資料設定。
選擇隨機範例
當您想要標籤資料的隨機子集時,請選取 Random sample (隨機樣本)。資料集儲存在 Amazon S3 儲存貯體 (已於輸入資料集的位置欄位指定)。
在您指定您希望包含在範例的資料物件百分比後,請選擇 Create subset (建立子集)。SageMaker AI 會為您的標籤工作隨機挑選資料物件。選取物件後,請選擇 Use this subset (使用此子集)。
SageMaker AI 會為選取的資料物件建立資訊清單檔案。也會修改 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。
指定子集
Amazon S3 Select
Amazon S3 Select 不再提供給新客戶。Amazon S3 Select 的現有客戶可以繼續照常使用此功能。若要進一步了解,請參閱如何在 Amazon S3 中最佳化查詢資料
您可以對物件檔案名稱使用 Amazon S3 SELECT
查詢來指定資料物件的子集。
會為您定義 SQL 查詢的 SELECT
陳述式。由您提供 WHERE
子句來指定應傳回哪些資料物件。
如需 Amazon S3 SELECT
陳述式的更多相關資訊,請參閱從物件中選取內容。
選擇 Create subset (建立子集) 開始選取,然後選擇 Use this subset (使用此子集) 來使用所選的資料。
SageMaker AI 會為選取的資料物件建立資訊清單檔案。也會更新 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。