選取標籤資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

選取標籤資料

您可以使用 Amazon SageMaker 主控台來選取資料集的一部分以進行標籤。資料必須儲存於 Amazon S3 儲存貯體。您有三種選項:

  • 使用完整資料集。

  • 選擇隨機選取的資料集範例。

  • 使用查詢指定資料集的子集。

選擇建立標籤工作 後,下列選項可在SageMaker主控台的標籤工作區段中使用。 若要了解如何在主控台中建立標籤工作,請參閱入門:使用 Ground Truth 建立週框方塊標籤工作。若要配置用於標籤的資料集,請在 Job overview (工作概觀) 區段中選擇 Additional configuration (其他組態)

使用完整資料集

當您選擇使用完整資料集時,您必須為資料物件提供資訊清單檔案。您可以提供包含資訊清單檔案的 Amazon S3 儲存貯體路徑,或使用 SageMaker 主控台建立檔案。若要了解如何使用主控台建立資訊清單檔案,請參閱自動化標籤任務的資料設定

選擇隨機範例

當您想要標籤資料的隨機子集時,請選取 Random sample (隨機樣本)。資料集儲存在 Amazon S3 儲存貯體 (已於輸入資料集的位置欄位指定)。

指定要包含在範例的資料物件百分比後,請選擇建立子集 . SageMaker randomly 為您的標籤工作挑選資料物件。選取物件後,請選擇 Use this subset (使用此子集)。

SageMaker 會為選取的資料物件建立資訊清單檔案。也會修改 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。

指定子集

Amazon S3 Select

Amazon S3 Select 不再提供給新客戶。Amazon S3 Select 的現有客戶可以繼續如常使用此功能。若要進一步了解,請參閱如何在 Amazon S3 中最佳化查詢資料

您可以對物件檔案名稱使用 Amazon S3 SELECT 查詢來指定資料物件的子集。

SQL 查詢的SELECT陳述式會為您定義。由您提供 WHERE 子句來指定應傳回哪些資料物件。

如需 Amazon S3 SELECT 陳述式的更多相關資訊,請參閱從物件中選取內容

選擇 Create subset (建立子集) 開始選取,然後選擇 Use this subset (使用此子集) 來使用所選的資料。

SageMaker 會為選取的資料物件建立資訊清單檔案。也會更新 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。