Shapley 値を使用する特徴属性 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Shapley 値を使用する特徴属性

SageMaker Clarify は、Shapley 値 の概念に基づいて特徴属性を提供します。Shapley 値を使って、各特徴がモデル予測に与える寄与度を判断できます。これらの属性は、特定の予測に対して提供することも、モデル全体に対してグローバルレベルで提供することもできます。例えば、大学入学に ML モデルを使用した場合、説明は、 GPAまたはSATスコアがモデルの予測に最も関連する特徴量であるかどうかを判断し、各特徴量が特定の学生に関する入学決定の決定にどの程度責任があるかを判断するのに役立ちます。

SageMaker Clarify はゲーム理論から Shapley 値の概念を取り上げ、機械学習コンテキストにデプロイしました。Shapley 値は、ゲームに対する各プレイヤーの貢献度を定量化する方法であり、これにより、ゲームによって得られる総利益をプレイヤーの貢献度に応じて分配する手段を提供します。この機械学習コンテキストでは、 SageMaker Clarify は特定のインスタンスのモデルの予測をゲームとして扱い、モデルに含まれる機能をプレイヤーとして扱います。最初の近似値では、モデルからその特徴を削除した場合と、モデルから他の特徴をすべて削除した場合の結果を定量化することで、各特徴のわずかな貢献度や効果を判断したくなる場合があります。ただし、このアプローチでは、モデルに含まれる特徴が互いに独立していない場合が多いことを考慮していません。例えば、2 つの特徴が高度に相関している場合、いずれかの特徴を削除してもモデルの予測が大きく変化しない可能性があります。

これらの潜在的な依存関係に対処するために、Shapley 値では、各特徴の重要性を判断するために、特徴の可能な各組み合わせ (または連結) の結果を考慮する必要があります。d 個の特徴がある場合、このような特徴の組み合わせは 2d とおりあり、それぞれが潜在的なモデルに対応します。特定の特徴 f の属性を決定するには、f を含まないすべての特徴の組み合わせ (および関連モデル) に f を含めた場合のわずかな貢献度を考慮し、その平均をとります。Shapley 値は、特定の望ましい特性を満たす各特徴の貢献度や重要度を割り当てる唯一の方法であることが示すことができます。特に、各特徴の Shapley 値の合計は、そのモデルと特徴を持たないダミーモデルの予測の差に対応します。ただし、妥当な値の d、例えば 50 個の特徴であっても、2d の可能なモデルをトレーニングすることは計算上禁止されており、現実的ではありません。そのため、 SageMaker Clarify はさまざまな近似手法を使用する必要があります。この目的のため、 SageMaker Clarify は Shapley Additive exPlanations (SHAP) を使用します。これは、このような近似値を組み込み、追加の最適化を通じてカーネルSHAPアルゴリズムのスケーラブルで効率的な実装を考案したものです。

Shapley 値の詳細については、「モデル予測を解釈するための統一アプローチ」を参照してください。