實體清單（僅限純文字）

若要使用實體清單訓練模型，您提供兩項資訊：實體名稱清單及其對應的自訂實體類型，以及您希望實體出現在其中的未標註文件集合。

當您提供實體清單時，Amazon Comprehend 會使用智慧型演算法來偵測文件中實體的出現情況，以做為訓練自訂實體辨識器模型的基礎。

對於實體清單，請在實體清單中為每個實體類型提供至少 25 個實體相符項目。

自訂實體辨識的實體清單需要逗號分隔值 (CSV) 檔案，其中包含下列資料欄：

文字 - 項目範例的文字，與隨附文件 corpus 完全相同。
Type - 客戶定義的實體類型。實體類型必須是大寫、底線分隔字串，例如 MANAGER 或 SENIOR_MANAGER。每個模型最多可訓練 25 種實體類型。

檔案documents.txt包含四行：


Jo Brown is an engineer in the high tech industry.
John Doe has been a engineer for 14 years.
Emilio Johnson is a judge on the Washington Supreme Court.
Our latest new employee, Jane Smith, has been a manager in the industry for 4 years.

具有實體清單的 CSV 檔案具有下列幾行：


Text, Type
Jo Brown, ENGINEER
John Doe, ENGINEER
Jane Smith, MANAGER

注意

在實體清單中，Emilio Johnson 的項目不存在，因為它不包含 ENGINEER 或 MANAGER 實體。

建立資料檔案

您的實體清單必須位於正確設定的 CSV 檔案中，因此您發生實體清單檔案問題的機率極小。若要手動設定 CSV 檔案，下列項目必須是 true：

必須明確指定 UTF-8 編碼，即使它在大多數情況下用作預設值。
它必須包含資料欄名稱： Type和 Text。

我們強烈建議以程式設計方式產生 CSV 輸入檔案，以避免潛在問題。

下列範例使用 Python 為上述註釋產生 CSV：


import csv 
with open("./entitylist/entitylist.csv", "w", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(["Text", "Type"])
    csv_writer.writerow(["Jo Brown", " ENGINEER"])
    csv_writer.writerow(["John Doe", " ENGINEER"])
    csv_writer.writerow(["Jane Smith", " MANAGER"])

最佳實務

使用實體清單時，需要考慮一些事項才能獲得最佳結果，包括：

清單中實體的順序不會影響模型訓練。
使用涵蓋 80%-100% 的正實體範例的實體清單項目，這些範例在未標註的文件庫中提及。
移除常用單字和片語，避免符合文件文中非實體的實體範例。即使是少數不正確的相符項目，也會大幅影響所產生模型的準確性。例如，實體清單中類似的字詞將導致大量的相符項目，不太可能是您正在尋找的實體，因此會大幅影響您的準確性。
輸入資料不應包含重複項目。存在重複的樣本可能會導致測試集污染，因此對訓練程序、模型指標和行為產生負面影響。
盡可能提供類似實際使用案例的文件。請勿將玩具資料或合成資料用於生產系統。輸入資料應盡可能多樣化，以避免過度擬合，並協助基礎模型更好地概括真實的範例。
實體清單區分大小寫，目前不支援規則運算式。不過，經過訓練的模型通常仍然可以辨識實體，即使實體與實體清單中提供的大小寫不相符。
如果您有實體是另一個實體的子字串（例如「Smith」和「Jane Smith」)，請在實體清單中提供兩者。

如需其他建議，請參閱改善自訂實體辨識器效能

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

準備訓練資料

註釋

實體清單 （僅限純文字）

注意

最佳實務

實體清單（僅限純文字）