翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
プレーンテキストの注釈ファイル
プレーンテキストの注釈の場合は、注釈のリストを含むカンマ区切り値 (CSV) ファイルを作成します。トレーニングファイルの入力形式が 1 行に 1 ドキュメント の場合、CSV ファイルには次の列が含まれている必要があります。
File | 線グラフ | オフセットを開始する | オフセットを終了する | タイプ |
---|---|---|---|---|
ドキュメントを含むファイル名。たとえば、ドキュメントファイルの 1 つが |
エンティティを含む行番号。入力形式が 1 ファイルにつき 1 つのドキュメントである場合は、この列を省略してください。 |
エンティティの開始位置を示す入力テキストの文字のオフセット (行の先頭を基準とした相対値)。最初の文字位置は 0 です。 |
エンティティの終了位置を示す入力テキストの文字オフセット。 |
顧客定義のエンティティタイプ。エンティティタイプは、アンダースコアで区切られた、大文字の文字列でなければなりません。 |
トレーニングファイルの入力形式が [1 ファイルにつき 1 つのドキュメント] である場合は、行番号列を省略し、[オフセット開始] と [オフセット終了] の値は、ドキュメントの先頭からのエンティティのオフセットになります。
次の例は、1 行に 1 つのドキュメントを対象としています。documents.txt
ファイルには 4 行 (行 0、1、2、3) が含まれています。
Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.
注釈のリストを含む CSV ファイルは次のとおりです。
File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
注記
注釈ファイルでは、エンティティを含む行番号は 0 行目から始まります。この例では、2 行目にはエンティティがないため、CSV ファイルには 2 行目の documents.txt
エントリが含まれていません。
データファイルを作成する
エラーのリスクを減らすには、注釈を適切に構成された CSV ファイルに入れることが重要です。CSV ファイルを手動で構成するには、以下が満たされている必要があります。
-
UTF-8 エンコーディングは、ほとんどの場合、デフォルトとして使用されている場合でも、明示的に指定する必要があります。
-
最初の行には列ヘッダー
File
、Line
(オプション)、Begin Offset
、End Offset
、Type
が含まれます。
潜在的な問題を避けるため、CSV 入力ファイルはプログラムで生成することを強くお勧めします。
次の例では、Python を使用して前述の注釈の CSV を生成します。
import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])