注釈統合関数の作成 - Amazon SageMaker

注釈統合関数の作成

独自の注釈統合関数を使用して、ラベル付けしたオブジェクトの最終的なラベルを決定できます。関数を記述するアプローチは複数あり、どのアプローチを採用するかは、統合する注釈の性質によります。大まかに言うと、統合関数は、ワーカーからの注釈を参照してその類似性を測定し、何らかの形式の確率的判断を使用して、最も可能性の高いラベルが何であるかを判断します。

他のアルゴリズムを使用して注釈統合関数を作成する場合は、ジョブの出力先とする Amazon S3 バケットの [project-name]/annotations/worker-response フォルダでワーカーの応答を参照できます。

類似度の評価

ラベル間の類似度を評価するには、次のいずれかの戦略を使用するか、データのラベル付けニーズを満たす特定の戦略を使用できます。

  • 複数クラス分類といった、個別の相互排他なカテゴリで構成されるラベルスペースについては、簡単に類似度を評価できます。離散ラベルが一致するか、一致しないかのいずれかです。

  • 境界ボックス注釈など、離散値を持たないラベルスペースについては、より広範な類似度の測定基準を見つけます。境界ボックスの場合、そうした測定基準の 1 つが Jaccard インデックスです。これは、ボックスの統合により 2 つのボックスの交差の比率を測定し、どの程度類似しているかを評価します。例えば、3 つの注釈がある場合、同じオブジェクトを表している注釈を判断する関数があり、その関数を統合する必要があります。

最も可能性の高いラベルの評価

前のセクションの戦略の詳細のいずれかを念頭に置いて、統合ラベルが何であるかについて、何らかの確率的判断を行います。個別の相互排他なカテゴリの場合、これは簡単です。これを行う最も一般的な方法の 1 つは、注釈間の多数決方式の結果を採用することです。これにより、注釈が均等に加重されます。

アプローチによっては、さまざまなアノテーターの精度を予測し、正しいことの可能性に比例して注釈を加重するよう試行します。一例として、マルチクラスの注釈でデフォルトの Ground Truth 統合関数で使用される期待値最大化法があります。

注釈統合関数の作成の詳細については、「AWS Lambda を使用したカスタムラベル付けワークフローでのデータの処理」を参照してください。