本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
註釋合併函數建立
您可以選擇使用自己的註釋合併函式,來決定所標籤物件的最終標籤。有許多撰寫函式的可行方法,以及您可以根據要合併之註釋的性質採取的方法。廣義來說,合併函式會查看工作者的註釋、測量它們之間的相似性,然後使用某種形式的機率性判斷來決定最可能的標籤為何。
如果想要使用其他演算法來建立註釋合併函式,則您可以在將任務輸出導引至其中之 Amazon S3 儲存貯體的
資料夾中找到工作者回應。[project-name]
/annotations/worker-response
評估相似性
若要評估標籤之間的相似性,您可以使用下列其中一個策略,或是使用符合您資料標籤需求的策略:
-
針對由離散、互斥類別組成的標籤空間 (例如多類別分類),評估相似度的過程可以相當直接。離散標籤不是相符就是不相符。
-
針對沒有離散值的標籤空間,例如邊界框註釋,請尋找廣泛的相似性量值。針對邊界框,雅卡爾指數 (Jaccard index) 就是這樣的量值。它會使用方塊間的聯集測量兩個方塊交集的比率,評估其相似度。例如,如果有三個註釋,則可能有一個函式會決定哪些註釋代表相同的物件,而應該合併。
評估最可能的標籤
考量先前詳述的其中一種策略,做一下機率性判斷,找出何者為整合標籤。針對離散、互斥的類別,這項過程可以相當直接。其中一個執行此作業的常見方式,便是採取註釋之間佔大多數選票的結果。這會平均加權註釋。
有些方法會嘗試估計不同註釋工具的準確度,根據其正確性的機率,按比例加權它們的註釋。例如,多類別註釋的預設 Ground Truth 合併函式中所使用的最大期望法。
如需有關建立註釋合併函式的詳細資訊,請參閱使用 處理自訂標籤工作流程中的資料 AWS Lambda。