註釋合併 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

註釋合併

註釋是單一工作者之標籤任務的結果。註釋合併會為您的資料物件,將兩個以上的工作者註釋合併成單一標籤。指派給資料集中每個物件的標籤,是真實標籤應該是什麼的概率估計值。資料集中的每個物件通常有多個註釋,但只有一個標籤或一組標籤。

您可以決定要讓多少工作者註釋您資料集中的每個物件。投入越多的工作者可以提高您標籤的準確性,但也會增加標籤的成本。若要進一步了解 Ground Truth 定價,請參閱 Amazon SageMaker Ground Truth 定價

如果您使用 Amazon SageMaker 主控台來建立標籤工作,下列是可以註釋物件的工作者數量的預設值:

  • 文字分類 - 3 個工作者

  • 影像分類 — 3 個工作者

  • 邊界框 - 5 個工作者

  • 語意分割 - 3 個工作者

  • 具名實體辨識 — 3 個工作者

使用 CreateLabelingJob 操作時,您會設定多少個工作者,使用 NumberOfHumanWorkersPerDataObject 參數註釋每個資料物件。您可以使用主控台或 CreateLabelingJob 操作,覆寫註釋資料物件的預設工作者數目。

Ground Truth 可為每個預先定義的標籤任務提供註釋合併函式:邊界框、影像分類、名稱實體辨識、語意分割及文字分類。有以下函式:

  • 影像和文字分類的多類別註釋合併會使用不同的最大期望值算法來進行註釋。它會估計每個工作者的參數,並根據個別工作者的類別註釋,使用貝氏推論來估計真正的類別。

  • 邊界框註釋合併多個工作者的邊界框。此函式會根據方塊的雅卡爾指數 (Jaccard index) 或聯集上的交集並平均它們,從不同工作者中尋找最相似的方塊。

  • 語意分割註釋合併將單一影像中的每個像素視為一個多類別分類。此函式會將平滑化函式套用至影像,納入周圍像素的更多資訊,而將工作者的像素註釋視為 “選票”。

  • 具名實體辨識會依 Jaccard 相似度來叢集文字選取項目,並基於模式來計算選取項目界限,或如果不確定模式,則取中間值。標籤會解析為叢集中指派最多的實體標籤,並依隨機選取項目來中斷連結。

您可以使用其他演算法來合併註釋。如需相關資訊,請參閱 註釋合併函數建立