篩選和選取要標籤的資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

篩選和選取要標籤的資料

您可以使用 Amazon SageMaker 主控台選取資料集的一部分進行標記。資料必須儲存於 Amazon S3 儲存貯體。您有三種選項:

  • 使用完整資料集。

  • 選擇隨機選取的資料集範例。

  • 使用查詢指定資料集的子集。

選取 [建立標籤工作] 之後,SageMaker主控台的 [標籤工] 區段中會提供下列選項。若要了解如何在主控台中建立標籤工作,請參閱開始使用。若要配置用於標籤的資料集,請在 Job overview (工作概觀) 區段中選擇 Additional configuration (其他組態)

使用完整資料集

當您選擇使用完整資料集時,您必須為資料物件提供資訊清單檔案。您可以提供包含資訊清單檔案的 Amazon S3 儲存貯體路徑,或使用 SageMaker 主控台建立檔案。若要了解如何使用主控台建立資訊清單檔案,請參閱自動化資料設定

選擇隨機範例

當您想要標籤資料的隨機子集時,請選取 Random sample (隨機樣本)。資料集儲存在 Amazon S3 儲存貯體 (已於輸入資料集的位置欄位指定)。

指定要包含在範例中的資料物件百分比之後,請選擇 [建立子集]。 SageMaker 隨機挑選標籤工作的資料物件。選取物件後,請選擇 Use this subset (使用此子集)。

SageMaker 為所選資料物件建立資訊清單檔案。也會修改 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。

指定子集

您可以對物件檔案名稱使用 Amazon S3 SELECT 查詢來指定資料物件的子集。

SQL查詢的SELECT陳述式是為您定義的。由您提供 WHERE 子句來指定應傳回哪些資料物件。

如需 Amazon S3 SELECT 陳述式的更多相關資訊,請參閱從物件中選取內容

選擇 Create subset (建立子集) 開始選取,然後選擇 Use this subset (使用此子集) 來使用所選的資料。

SageMaker 為所選資料物件建立資訊清單檔案。也會更新 Input dataset location (輸入資料集的位置) 欄位中的值,以指向新的資訊清單檔案。