輸入資訊清單檔案 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

輸入資訊清單檔案

輸入資訊清單檔案的每一行均為項目,包含要標籤的物件或物件的參考。項目也可包含上一步工作的標籤,對於某些任務類型,則包含其他資訊。

輸入資料與資訊清單檔案必須儲存在 Amazon Simple Storage Service (Amazon S3)。各有特定的儲存和存取需求,如下所示:

  • 包含輸入資料的 Amazon S3 儲存貯體必須位於執行 Amazon SageMaker Ground Truth 的相同 AWS 區域中。您必須讓 Amazon SageMaker 存取存放在 Amazon S3 儲存貯體中的資料,以便讀取。如需更多相關資訊了解 Amazon S3 儲存貯體,請參閱使用 Amazon S3 儲存貯體

  • 資訊清單檔案必須與資料檔案位於相同的 AWS 區域,但不需要與資料檔案位於相同的位置。它可以存放在任何 Amazon S3 儲存貯體中,您可以在建立標籤工作時存取您指派給 Ground Truth 的 AWS Identity and Access Management (IAM) 角色。

注意

3D 點雲與影片影格任務類型具有不同的輸入資訊清單需求及屬性。

如需 3D 點雲任務類型的資訊,請參閱3D 點雲端標籤任務的輸入清單檔案

如需影片影格任務類型的資訊,請參閱建立影片影格輸入資訊清單檔案

資訊清單是 UTF-8 編碼的檔案,其中每行都是完整且有效的JSON物件。每一行都由標準分行符號 (\n 或 \r\n) 分隔。因為每行都必須是有效的JSON物件,所以您無法包含未逸出的換行字元。如需資料格式的詳細資訊,請參閱JSON行

資訊清單檔案中的每個JSON物件不能超過 100,000 個字元。物件內的單一屬性不能超過 20,000 個字元。屬性名稱的開頭不可為 $ (貨幣符號)。

資訊清單檔案中的每個JSON物件必須包含下列其中一個金鑰: source-refsource。鍵的值會解譯為如下:

  • source-ref – 物件來源是數值所指定的 Amazon S3 物件。當物件是二進位物件 (例如映像) 時,請使用此值。

  • source – 物件的來源即為數值。當物件為文字值時,請使用此值。

下列範例顯示儲存於 Amazon S3 儲存貯體檔案的資訊清單檔案:

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

將映像檔案的 source-ref 金鑰用於邊界框、影像分類 (單一與多重標籤)、語意分割與影片剪輯影片分類標籤工作。3D 點雲與影片影格標籤工作也會使用 source-ref 金鑰,但是這些標籤工作要求輸入資訊清單檔案的其他資訊。如需更多資訊,請參閱3D 點雲輸入資料影片影格輸入資料

下列範例顯示儲存於資訊清單輸入資料的資訊清單檔案:

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

請將 source 金鑰用於單一與多標籤文字分類及具名實體辨識標籤工作。

您可以在資訊清單檔案中包含其他鍵值對。這些鍵值對在傳遞到輸出檔案時會保持不變。當您希望在您的應用程式之間傳遞資訊時,這會很有幫助。如需詳細資訊,請參閱標記任務輸出資料