AWS Clean Rooms ML モデル評価メトリクス

Clean Rooms ML はリコールおよび関連性スコアを計算してモデルのパフォーマンスを判断します。リコールは、類似データとトレーニングデータの類似性を比較します。関連性スコアは、モデルのパフォーマンスが良好かどうかではなく、オーディエンスの大きさを判断するために使用されます。

リコールは、類似セグメントがトレーニングデータとどの程度類似しているかを公平に測定するものです。リコールは、オーディエンス生成ジョブによってシードオーディエンスに含まれるトレーニングデータのサンプルからの、最も類似したユーザー (デフォルトでは最も類似した 20%) の割合です。値の範囲は 0～1 で、値が大きいほど対象者が良いことを示します。リコール値は、ビンの最大割合とほぼ等しい場合、オーディエンスモデルがランダム選択と同等であることを示します。

Clean Rooms ML はモデルの構築時に真陰性のユーザーを正確にラベル付けしていないため、AWS では、正確性、精度、F1 スコアよりも、これがより優れた評価メトリクスであると考えています。

セグメントレベルの関連性スコアは、-1 (最も類似しない) から 1 (最も類似する) までの値を持つ類似性の尺度です。Clean Rooms ML は、さまざまなセグメントサイズについて一連の関連性スコアを計算し、データに最適なセグメントサイズを決定するのに役立ちます。関連性スコアは、セグメントサイズが大きくなるにつれて一定間隔で減少するため、セグメントサイズが大きくなるにつれてシードデータと類似しなくなる可能性があります。セグメントレベルの関連性スコアが 0 に達すると、モデルは類似セグメントのすべてのユーザーがシードデータと同じディストリビューションに属すると予測します。出力サイズを大きくすると、類似セグメントに、シードデータと同じディストリビューションに属さないユーザーが含まれる可能性が高くなります。

関連性スコアは 1 つのキャンペーン内で標準化されるため、キャンペーン間の比較には使用しないでください。関連性スコアは、在庫品質、在庫タイプ、広告のタイミングなど、関連性に加えて複数の複雑な要因によって影響を受けるため、ビジネス成果の単一ソースの証拠として使用しないでください。

関連性スコアはシードの品質を判断するためではなく、増減できるかどうかを判断するために使うべきです。次の例を考えます。

すべて正のスコア – 類似していると予測される出力ユーザーの方が、類似セグメントに含まれるユーザーよりも多いことを示しています。これは、過去 1 か月間に歯磨き粉を購入したユーザーなど、大規模な市場に属するシードデータによく見られます。過去 1 か月に歯磨き粉を複数回購入したユーザーなど、比較的小さなシードデータを確認することをお勧めします。
すべて負のスコア、または希望する類似セグメントサイズに対して負 – これは、Clean Rooms ML が、希望する類似セグメントサイズでは類似ユーザーが十分ではないと予測していることを示しています。これは、シードデータが具体的すぎるか、市場が小さすぎることが原因と考えられます。シードデータに適用するフィルターの数を減らすか、市場を拡大することをお勧めします。例えば、元のシードデータがベビーカーとチャイルドシートを購入した顧客だった場合、ベビー用品を複数購入した顧客に市場を拡大できます。

トレーニングデータプロバイダーは、関連性スコアを公開するかどうか、および関連性スコアを計算するバケットビンを決定します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

シードデータ要件

Clean Rooms ML のカスタムモデル