準備實體識別器訓練資料 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備實體識別器訓練資料

若要訓練成功的自訂實體辨識模型,請務必提供模型訓練師高品質的資料做為輸入。如果沒有良好的資料,模型將無法了解如何正確識別實體。

您可以選擇兩種向 Amazon Comprehend 提供資料的其中一種方式,以訓練自訂實體辨識模型:

  • 實體清單 – 列出特定實體,以便 Amazon Comprehend 可以訓練 來識別您的自訂實體。注意:實體清單只能用於純文字文件。

  • 註釋 – 在多個文件中提供實體的位置,以便 Amazon Comprehend 可以同時針對實體及其內容進行訓練。若要建立模型來分析影像檔案、PDFs或 Word 文件,您必須使用 PDF 註釋來訓練辨識器。

在這兩種情況下,Amazon Comprehend 都會了解文件的類型和實體發生的背景,並建置可進行一般化的辨識器,以便在分析文件時偵測新的實體。

當您建立自訂模型 (或訓練新版本) 時,您可以提供測試資料集。如果您不提供測試資料,Amazon Comprehend 會保留 10% 的輸入文件來測試模型。Amazon Comprehend 會使用剩餘的文件來訓練模型。

如果您為註釋訓練集提供測試資料集,則測試資料必須至少包含一個註釋,用於建立請求中指定的每個實體類型。

何時使用註釋與實體清單

建立註釋比建立實體清單需要更多工作,但產生的模型可能更準確。使用實體清單更快速且較不耗用工作,但結果較不精細且不準確。這是因為註釋為 Amazon Comprehend 在訓練模型時提供更多內容。如果沒有該內容,Amazon Comprehend 在嘗試識別實體時會有較多的誤報。

在某些情況下,為了避免使用註釋的較高費用和工作負載,會更合理地處理業務。例如,John Johnson 的名稱對您的搜尋很重要,但它是否與確切的個人無關。或者,使用實體清單時的指標足夠好,可為您提供所需的辨識器結果。在這種情況下,使用實體清單可以更有效選擇。

建議在下列情況下使用註釋模式:

  • 如果您打算執行映像檔案、PDFs或 Word 文件的推論。在此案例中,您會使用註釋的 PDF 檔案訓練模型,並使用模型來執行映像檔案、PDFs和 Word 文件的推論任務。

  • 實體的意義可能含糊不清且內容相關。例如,Amazon 一詞可以參考巴西的河流,或線上零售商 Amazon.com。當您建置自訂實體識別器來識別 Amazon 等商業實體時,您應該使用註釋而非實體清單,因為此方法更能夠使用內容來尋找實體。

  • 當您願意設定程序以取得註釋時,可能需要一些努力。

在下列情況中,我們建議您使用實體清單:

  • 當您已經有實體清單,或相對容易編寫完整的實體清單時。如果您使用實體清單,清單應該是完整的,或至少涵蓋大部分可能出現在您提供訓練的文件的有效實體。

  • 對於初次使用的使用者,通常建議使用實體清單,因為這比建構註釋需要的努力更小。不過,請務必注意,訓練的模型可能不如您使用註釋那樣準確。