プレーンテキストの注釈ファイル - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

プレーンテキストの注釈ファイル

プレーンテキストの注釈の場合は、注釈のリストを含むカンマ区切り値 (CSV) ファイルを作成します。トレーニングファイルの入力形式が 1 行に 1 ドキュメント の場合、CSV ファイルには次の列が含まれている必要があります。

File 線グラフ オフセットを開始する オフセットを終了する タイプ

ドキュメントを含むファイル名。たとえば、ドキュメントファイルの 1 つが s3://my-S3-bucket/test-files/documents.txt にある場合、File 列の値は documents.txt になります。ファイル名にはファイル拡張子 (この場合は「 .txt 」) を含める必要があります。

エンティティを含む行番号。入力形式が 1 ファイルにつき 1 つのドキュメントである場合は、この列を省略してください。

エンティティの開始位置を示す入力テキストの文字のオフセット (行の先頭を基準とした相対値)。最初の文字位置は 0 です。

エンティティの終了位置を示す入力テキストの文字オフセット。

顧客定義のエンティティタイプ。エンティティタイプは、アンダースコアで区切られた、大文字の文字列でなければなりません。MANAGERSENIOR_MANAGERPRODUCT_CODE などのわかりやすいエンティティタイプを使用することをお勧めします。モデルごとに、最大 25 のエンティティタイプをトレーニングできます。

トレーニングファイルの入力形式が [1 ファイルにつき 1 つのドキュメント] である場合は、行番号列を省略し、[オフセット開始] と [オフセット終了] の値は、ドキュメントの先頭からのエンティティのオフセットになります。

次の例は、1 行に 1 つのドキュメントを対象としています。documents.txt ファイルには 4 行 (行 0、1、2、3) が含まれています。

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

注釈のリストを含む CSV ファイルは次のとおりです。

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
注記

注釈ファイルでは、エンティティを含む行番号は 0 行目から始まります。この例では、2 行目にはエンティティがないため、CSV ファイルには 2 行目の documents.txt エントリが含まれていません。

データファイルを作成する

エラーのリスクを減らすには、注釈を適切に構成された CSV ファイルに入れることが重要です。CSV ファイルを手動で構成するには、以下が満たされている必要があります。

  • UTF-8 エンコーディングは、ほとんどの場合、デフォルトとして使用されている場合でも、明示的に指定する必要があります。

  • 最初の行には列ヘッダー FileLine (オプション)、Begin OffsetEnd OffsetType が含まれます。

潜在的な問題を避けるため、CSV 入力ファイルはプログラムで生成することを強くお勧めします。

次の例では、Python を使用して前述の注釈の CSV を生成します。

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])