プレーンテキストの注釈ファイル

プレーンテキストの注釈の場合は、注釈のリストを含むカンマ区切り値 (CSV) ファイルを作成します。トレーニングファイルの入力形式が 1 行に 1 ドキュメント の場合、CSV ファイルには次の列が含まれている必要があります。

システム	線グラフ	オフセットを開始する	オフセットを終了する	タイプ
ドキュメントを含むファイル名。たとえば、ドキュメントファイルの 1 つが `s3://my-S3-bucket/test-files/documents.txt` にある場合、`File` 列の値は `documents.txt` になります。ファイル名にはファイル拡張子 (この場合は「 `.txt` 」) を含める必要があります。	エンティティを含む行番号。入力形式が 1 ファイルにつき 1 つのドキュメントである場合は、この列を省略してください。	エンティティの開始位置を示す入力テキストの文字のオフセット (行の先頭を基準とした相対値)。最初の文字位置は 0 です。	エンティティの終了位置を示す入力テキストの文字オフセット。	顧客定義のエンティティタイプ。エンティティタイプは、アンダースコアで区切られた、大文字の文字列でなければなりません。`MANAGER`、`SENIOR_MANAGER`、`PRODUCT_CODE` などのわかりやすいエンティティタイプを使用することをお勧めします。モデルごとに、最大 25 のエンティティタイプをトレーニングできます。

トレーニングファイルの入力形式が [1 ファイルにつき 1 つのドキュメント] である場合は、行番号列を省略し、[オフセット開始] と [オフセット終了] の値は、ドキュメントの先頭からのエンティティのオフセットになります。

次の例は、1 行に 1 つのドキュメントを対象としています。documents.txt ファイルには 4 行 (行 0、1、2、3) が含まれています。


Diego Ramirez is an engineer in the high tech industry.
Emilio Johnson has been an engineer for 14 years.
J Doe is a judge on the Washington Supreme Court.
Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

注釈のリストを含む CSV ファイルは次のとおりです。


File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENGINEER
documents.txt, 1, 0, 14, ENGINEER
documents.txt, 3, 25, 38, MANAGER

注記

注釈ファイルでは、エンティティを含む行番号は 0 行目から始まります。この例では、2 行目にはエンティティがないため、CSV ファイルには 2 行目の documents.txt エントリが含まれていません。

データファイルを作成する

エラーのリスクを減らすには、注釈を適切に構成された CSV ファイルに入れることが重要です。CSV ファイルを手動で構成するには、以下が満たされている必要があります。

UTF-8 エンコーディングは、ほとんどの場合、デフォルトとして使用されている場合でも、明示的に指定する必要があります。
最初の行には列ヘッダー File、Line (オプション)、Begin Offset、End Offset、Type が含まれます。

潜在的な問題を避けるため、CSV 入力ファイルはプログラムで生成することを強くお勧めします。

次の例では、Python を使用して前述の注釈の CSV を生成します。


import csv 
with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"])
    csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

‏注釈

PDF アノテーション