非同期分析用のファイル形式 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

非同期分析用のファイル形式

モデルを使用して非同期解析を実行する場合、入力文書の形式には One document per lineone document per file を選択できます。次の表に示すように、使用する形式は分析する文書のタイプによって異なります。

説明 形式

入力には複数のファイルが含まれます。各ファイルには 1 つの入力ドキュメントが含まれます。この形式は、新聞記事や科学論文など、サイズの大きい文書の集団に最適です。

また、ネイティブドキュメント分類子を使用する半構造化ドキュメント (イメージ、PDF、または Docx ファイル) には、この形式を使用します。

ファイルごとに 1 文書

入力は 1 つまたは複数のファイルです。ファイル内の各行は個別の入力文書です。この形式は、テキストメッセージやソーシャルメディアへの投稿など、短い文書に最適です。

1 行に 1 文書

ファイルごとに 1 文書

one document per file 形式では、各ファイルが 1 つの入力文書を表します。

1 行に 1 文書

One document per line 形式では、各文書は別々の行に配置され、ヘッダーは使いません。ラベルは各行に含まれません (文書のラベルがまだわからないため)。ファイルの各行 (個々のドキュメントの末尾) は、ラインフィード (LF、\n)、キャリッジリターン (CR、\r)、またはその両方 (CRLF、\r\n) で終わる必要があります。UTF-8 行区切り文字 (u+2028) を使用して行を終了しないでください。

以下の例は、 入力ファイルの形式を示しています。

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

どちらの形式でも、テキストファイルには UTF-8 エンコードを使用します。ファイルを作成したなら、入力データに使用している S3 バケットにファイルを配置します。

分類ジョブを開始するときに、この Amazon S3 ロケーションを入力データとして指定します。は、呼び出すAPIエンドポイントと同じリージョンに存在するURI必要があります。URI は 1 つのファイル (「1 行に 1 つのドキュメント」メソッドを使用する場合など) を指すことも、データファイルのコレクションのプレフィックスにすることもできます。

例えば、 を使用する場合URIS3://bucketName/prefix、プレフィックスが 1 つのファイルの場合、Amazon Comprehend はそのファイルを入力として使用します。複数のファイルがプレフィックスで始まる場合、Amazon Comprehend はそれらすべてを入力として使用します。

Amazon Comprehend に文書コレクションおよび出力ファイルが含まれる S3 バケットへのアクセス許可を付与します。詳細については、「バッチ操作に必要なロールベースのアクセス許可」を参照してください。