PDF アノテーションファイル - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PDF アノテーションファイル

PDF 注釈の場合は、 SageMaker Ground Truth を使用して、拡張マニフェストファイルにラベル付きデータセットを作成します。Ground Truth は、お客様 (またはお客様が雇用している労働力)が機械学習モデル用のトレーニングデータセットを構築するのに役立つデータラベリングサービスです。Amazon Comprehend は、カスタムモデル用トレーニングデータとして拡張マニフェストファイルを受け付けます。Amazon Comprehend コンソールまたは CreateEntityRecognizer API アクションを使用して、カスタムエンティティレコグナイザーを作成するときに、これらのファイルを提供できます。

Ground Truth の組み込みタスクタイプである名前付きエンティティ認識を使用してラベリングジョブを作成することで、ワーカーはテキスト内のエンティティを識別することができます。詳細については、「Amazon SageMaker デベロッパーガイド」の「固有表現認識」を参照してください。Amazon SageMaker Ground Truth の詳細については、「Amazon SageMaker Ground Truth を使用してデータにラベルを付ける」を参照してください。

注記

Ground Truth を使用すると、重複するラベル (複数のラベルに関連付けられるテキスト) を定義できます。ただし、Amazon Comprehend のエンティティ認識では、ラベルの重複はサポートされていません。

拡張マニフェストファイルは JSON 行形式になります。ファイル内の各行は、トレーニングドキュメントとそのラベルを含む完全な JSON オブジェクトで構成します。次の例は、テキストで言及されている個人の職業を検出するようにエンティティレコグナイザーをトレーニングする拡張マニフェストファイルです。

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

この JSON 行ファイルの各行は完全な JSON オブジェクトであり、属性にはドキュメントテキスト、アノテーション、および Ground Truth からのその他のメタデータが含まれます。次の例は、拡張マニフェストファイル内の 1 つの JSON オブジェクトですが、読みやすいようにフォーマットされています。

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

この例では、source 属性はトレーニングドキュメントのテキストを提供し、NamedEntityRecognitionDemo 属性はテキスト内のエンティティのアノテーションを提供します。NamedEntityRecognitionDemo 属性の名前は任意です。Ground Truth でのラベリングジョブの定義では任意の名前を指定できます。

この例では、NamedEntityRecognitionDemo 属性はラベルの属性名 です。これは、Ground Truth ワーカーがトレーニングデータに割り当てるラベルを提供する属性です。トレーニングデータを Amazon Comprehend に提供するときは、1 つ以上のラベル属性名を指定する必要があります。指定する属性名の数は、拡張マニフェストファイルが単一のラベリングジョブの出力であるか、チェーンラベリングジョブの出力であるかによって異なります。

ファイルが 1 つのラベルリングジョブの出力である場合は、Ground Truth でジョブが作成されたときに使用された 1 つのラベル属性名を指定します。

ファイルがチェーンラベリングジョブの出力である場合は、チェーン内の 1 つ以上のジョブに対するラベル属性名を指定します。各ラベル属性名には、それぞれ 1 つのジョブのアノテーションが含まれます。チェーンラベリングジョブによって生成される拡張マニフェストファイルには、これらの属性を 5 つまで指定できます。

通常、拡張マニフェストファイルでは、source キーの後にラベル属性名が付きます。ファイルがチェーンジョブの出力である場合は、複数のラベル属性名が存在します。トレーニングデータを Amazon Comprehend に提供するときは、モデルに関連するアノテーションを含む属性のみを提供してください。「-metadata」で終わる属性は指定しないでください。

連鎖ラベル付けジョブの詳細と、それらが生成する出力の例については、「Amazon SageMaker デベロッパーガイド」の「連鎖ラベル付けジョブ」を参照してください。