翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
注釈
注釈は、カスタムエンティティタイプをトレーニングドキュメント内の出現場所に関連付けることで、コンテキスト内のエンティティにラベル付けを行います。
ドキュメントと一緒に注釈を提出することで、モデルの精度を高めることができます。注釈を使用すると、探しているエンティティの場所を提供するだけでなく、探しているカスタムエンティティのより正確なコンテキストも提供できます。
たとえば、John Johnson という名前をエンティティタイプ JUDGEで検索する場合、注釈を指定すると、検索したい人が裁判官 であることをモデルが理解しやすくなる場合があります。コンテキストを使用できれば、Amazon Comprehend は 弁護士または証人である John Johnson という名前の人物は見つけません。注釈を付けない場合、Amazon Comprehend は独自の注釈を作成しますが、裁判官のみを含めるという点でそれほど効果的ではありません。独自の注釈を提供することで、より良い結果が得られ、カスタムエンティティを抽出する際にコンテキストをより有効に活用可能なモデルを生成できる場合があります。
エンティティごとの最小注釈数
モデルのトレーニングに必要な入力ドキュメントと注釈の最小数は、注釈の種類によって異なります。
- PDF アノテーション
-
画像ファイル、PDF、Word ドキュメントを分析するためのモデルを作成するには、PDF 注釈を使用してレコグナイザーをトレーニングする必要があります。PDF 注釈の場合は、エンティティごとに 250 個以上の入力ドキュメントと 100 個以上の注釈を用意してください。
テストデータセットを提供する場合、テストデータには、作成リクエストで指定されたエンティティタイプごとに少なくとも 1 つの注釈が含まれている必要があります。
- プレーンテキストの注釈
-
テキストドキュメントを分析するためのモデルを作成するには、プレーンテキスト注釈を使用してレコグナイザーをトレーニングできます。
プレーンテキスト注釈の場合は、1 つのエンティティにつき 3 つ以上の注釈付きの入力ドキュメントと 25 個以上の注釈を用意します。入力する注釈の合計が 50 個未満の場合、Amazon Comprehend は入力ドキュメントの 10% 以上をモデルのテスト用に予約します (トレーニングリクエストでテストデータセットを提供した場合を除く)。ドキュメントコーパスの最小サイズは 5 KB です。
入力に含まれるトレーニングドキュメントの数が少ない場合、トレーニング入力データに含まれるエンティティの 1 つに言及するドキュメントが少なすぎるというエラーが発生する可能性があります。そのエンティティに言及した追加のドキュメントを添えて、ジョブを再度提出してください。
テストデータセットを提供する場合、テストデータには、作成リクエストで指定されたエンティティタイプごとに少なくとも 1 つの注釈が含まれている必要があります。
小さなデータセットでモデルをベンチマークする方法の例については、AWS ブログサイトで 「Amazon Comprehend カスタムエンティティ認識の注釈制限引き下げ発表」
を参照してください。
注釈のベストプラクティス
注釈を使用する際に最良の結果を得るには、次のような点を考慮する必要があります:
-
データには注意して注釈を付け、エンティティについて言及するたびに必ず注釈を付けてください。注釈が不正確だと、結果が不良になる可能性があります。
-
入力データには、注釈を付ける PDF の複製のように、重複したものを含めないでください。サンプルが重複していると、テストセットが汚染され、トレーニングプロセス、モデルメトリクス、モデルの動作に悪影響を及ぼす可能性があります。
-
すべてのドキュメントに注釈が付けられていること、および注釈のないドキュメントが正当なエンティティの欠如によるものであって、過失によるものではないことを確認してください。たとえば、「J Doe はエンジニアになってから 14 年になります」というドキュメントがある場合は、「John Doe」だけでなく「J Doe」にも注釈を付ける必要があります。そうしないと、モデルが混乱し、モデルが「J Doe」をエンジニアとして認識しなくなる可能性があります。これは同じドキュメント内でもドキュメント間でも一貫しています。
-
一般的に、注釈が多いほど良い結果が得られます。
-
「最小限」 のドキュメントと注釈でモデルをトレーニングできますが、通常はデータを追加することでモデルが改善されます。モデルの精度を上げるために、注釈付きデータの量を 10% 増やすことをお勧めします。テストデータセットに対して推論を実行できます。このデータセットは変更されず、異なるバージョンのモデルでテストできます。その後、後続のモデルバージョンのメトリクスを比較できます。
-
実際のユースケースにできるだけ類似したドキュメントを提供してください。パターンが繰り返される合成データは避けるべきです。入力データは、過剰適合を避け、基礎となるモデルが実際の例に基づいてより一般化しやすくなるように、できるだけ多様でなければなりません。
-
ドキュメントは単語数の点で多様であることが重要です。たとえば、トレーニングデータに含まれるすべてのドキュメントが短い場合、生成されるモデルが長いドキュメントに含まれるエンティティを予測するのが難しくなる可能性があります。
-
カスタムエンティティを実際に検出するとき (推論時間)、使用予定のデータと同じデータをトレーニングに配分してみてください。たとえば、推論時にエンティティを含まないドキュメントを送付する予定であれば、これもトレーニングドキュメントセットの一部にしてください。
その他の提案については、「カスタムエンティティ認識機能のパフォーマンスの向上」を参照してください。