翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PDF 注釈ファイル
PDF 注釈の場合は、 SageMaker AI Ground Truth を使用して、拡張マニフェストファイルにラベル付きデータセットを作成します。Ground Truth は、お客様 (またはお客様が雇用している労働力)が機械学習モデル用のトレーニングデータセットを構築するのに役立つデータラベリングサービスです。Amazon Comprehend は、カスタムモデル用トレーニングデータとして拡張マニフェストファイルを受け付けます。これらのファイルは、Amazon Comprehend コンソールまたは CreateEntityRecognizerAPIアクションを使用して、カスタムエンティティレコグナイザーを作成するときに指定できます。
Ground Truth の組み込みタスクタイプである名前付きエンティティ認識を使用してラベリングジョブを作成することで、ワーカーはテキスト内のエンティティを識別することができます。詳細については、「Amazon SageMaker AI デベロッパーガイド」の「名前付きエンティティ認識」を参照してください。Amazon SageMaker Ground Truth の詳細については、「Amazon SageMaker AI Ground Truth を使用してデータにラベルを付ける」を参照してください。
注記
Ground Truth を使用すると、重複するラベル (複数のラベルに関連付けられるテキスト) を定義できます。ただし、Amazon Comprehend のエンティティ認識では、ラベルの重複はサポートされていません。
拡張マニフェストファイルはJSON行形式です。これらのファイルでは、各行はトレーニングドキュメントとそれに関連するラベルを含む完全なJSONオブジェクトです。次の例は、テキストで言及されている個人の職業を検出するようにエンティティレコグナイザーをトレーニングする拡張マニフェストファイルです。
{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}
この行ファイルの各JSON行は完全なJSONオブジェクトであり、属性には Ground Truth のドキュメントテキスト、注釈、およびその他のメタデータが含まれます。次の例は、拡張マニフェストファイル内の単一のJSONオブジェクトですが、読みやすくするためにフォーマットされています。
{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }
この例では、source
属性はトレーニングドキュメントのテキストを提供し、NamedEntityRecognitionDemo
属性はテキスト内のエンティティのアノテーションを提供します。NamedEntityRecognitionDemo
属性の名前は任意です。Ground Truth でのラベリングジョブの定義では任意の名前を指定できます。
この例では、NamedEntityRecognitionDemo
属性はラベルの属性名 です。これは、Ground Truth ワーカーがトレーニングデータに割り当てるラベルを提供する属性です。トレーニングデータを Amazon Comprehend に提供するときは、1 つ以上のラベル属性名を指定する必要があります。指定する属性名の数は、拡張マニフェストファイルが単一のラベリングジョブの出力であるか、チェーンラベリングジョブの出力であるかによって異なります。
ファイルが 1 つのラベルリングジョブの出力である場合は、Ground Truth でジョブが作成されたときに使用された 1 つのラベル属性名を指定します。
ファイルがチェーンラベリングジョブの出力である場合は、チェーン内の 1 つ以上のジョブに対するラベル属性名を指定します。各ラベル属性名には、それぞれ 1 つのジョブのアノテーションが含まれます。チェーンラベリングジョブによって生成される拡張マニフェストファイルには、これらの属性を 5 つまで指定できます。
通常、拡張マニフェストファイルでは、source
キーの後にラベル属性名が付きます。ファイルがチェーンジョブの出力である場合は、複数のラベル属性名が存在します。トレーニングデータを Amazon Comprehend に提供するときは、モデルに関連するアノテーションを含む属性のみを提供してください。「-metadata」で終わる属性は指定しないでください。
連鎖ラベル付けジョブの詳細と、それらが生成する出力の例については、Amazon SageMaker AI デベロッパーガイドの「ラベル付けジョブの連鎖」を参照してください。