自訂實體辨識 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂實體辨識

自訂實體辨識透過協助您識別不在預設通用實體類型中的特定新實體類型,來擴展 Amazon Comprehend 的功能。這表示您可以分析文件並擷取實體,例如產品代碼或符合您特定需求的業務特定實體。

自行建置準確的自訂實體識別器可能是一個複雜的程序,需要準備大量手動註釋的訓練文件,以及為模型訓練選擇正確的演算法和參數。Amazon Comprehend 提供自動註釋和模型開發,以建立自訂實體辨識模型,有助於降低複雜性。

建立自訂實體辨識模型比使用字串比對或規則表達式從文件中擷取實體更有效。例如,若要在文件中擷取 ENGINEER 名稱,很難列舉所有可能的名稱。此外,如果沒有內容,區分 ENGINEER 名稱和 ANALYST 名稱並不容易。自訂實體辨識模型可以了解這些名稱可能顯示的內容。此外,字串比對不會偵測具有錯別字或遵循新命名慣例的實體,但可以使用自訂模型。

您有兩種建立自訂模型的選項:

  1. 註釋 – 提供資料集,其中包含模型訓練的註釋實體。

  2. 實體清單 (僅限純文字) – 提供實體及其類型標籤的清單 (例如 PRODUCT_CODES和一組未註釋的文件,其中包含這些實體以進行模型訓練。

當您使用註釋的 PDF 檔案建立自訂實體辨識器時,您可以使用該辨識器搭配各種輸入檔案格式:純文字、影像檔案 (JPG、PNG、TIFF)、PDF 檔案和 Word 文件,而不需要預先處理或扁平化文件。Amazon Comprehend 不支援影像檔案或 Word 文件的註釋。

注意

使用註釋 PDF 檔案的自訂實體識別器僅支援英文文件。

您一次最多可以在 25 個自訂實體上訓練模型。如需詳細資訊,請參閱 準則和配額頁面

訓練模型後,您可以使用模型進行即時實體偵測,並在實體偵測任務中使用模型。