本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
純文字註解檔
對於純文字註釋,您可以建立包含註釋清單的逗號分隔值 (CSV) 檔案。如果您的訓練檔案輸入格式是每行一個文件,則 CSV 檔案必須包含下列欄。
檔案 | 折線圖 | 開始偏移 | 終點偏移 | Type |
---|---|---|---|---|
包含文件的檔案名稱。例如,如果其中一個文件檔案位於 |
包含圖元的行號。如果您的輸入格式是每個檔案一個文件,請省略此欄。 |
顯示實體開始位置的輸入文字中的字元偏移量 (相對於行的開頭)。第一個字元位於 0 的位置。 |
顯示實體結束位置的輸入文字中的字元偏移量。 |
客戶定義的實體類型。實體類型必須是大寫、下劃線分隔的字串。我們建議使用描述性實體類型 |
如果訓練檔案輸入格式是每個檔案一個文件,則省略行號欄,而「開始位移」(Begin Offset) 和「結束」(End) 位移值是實體從文件開頭算起的偏移量。
下列範例適用於每行一個文件。檔案documents.txt
包含四行 (列 0、1、2 和 3):
Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.
包含註釋清單的 CSV 檔案如下所示:
File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
注意
在註釋檔案中,包含圖元的行號以 0 行開始。在此範例中,CSV 檔案不包含第 2 行的項目,因為第 2 行中沒有實體documents.txt
。
建立您的資料檔案
請務必將註解放在正確設定的 CSV 檔案中,以降低發生錯誤的風險。若要手動設定 CSV 檔案,必須符合下列條件:
-
UTF-8 編碼必須明確指定,即使在大多數情況下將其用作默認編碼也是如此。
-
第一行包含欄標題:
File
,Line
(選擇性)、Begin Offset
、End Offset
、Type
。
我們強烈建議您以程式設計方式產生 CSV 輸入檔案,以避免潛在的問題。
下列範例會使用 Python 為先前顯示的註解產生 CSV:
import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])