A/B テストを使用したレコメンデーションの影響の測定 - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

A/B テストを使用したレコメンデーションの影響の測定

A/B テストを行うには、複数のバリエーションを使用して実験を行い、結果を比較します。Amazon Personalize レコメンデーションを使用して A/B テストを実行するには、さまざまなユーザーグループにさまざまなタイプのレコメンデーションを表示し、結果を比較します。A/B テストを使用すると、さまざまなレコメンデーション戦略を比較および評価し、レコメンデーションの影響を測定できます。

例えば、A/B テストを使用して、Amazon Personalize のレコメンデーションがクリック率を高めるかどうかを確認できます。このシナリオをテストするために、注目の製品など、パーソナライズされていないレコメンデーションをあるユーザーグループを表示する場合があります。また、Amazon Personalize によって生成されたパーソナライズされたレコメンデーションを別のグループに表示する場合があります。顧客がアイテムを操作すると、その結果を記録して、どの戦略が最もクリックスルー率が高かったかを確認できます。

Amazon Personalize レコメンデーションを使用して A/B テストを実行するためのワークフローは次のとおりです。

  1. 実験の計画 — 定量化可能な仮説を定義し、ビジネス目標を特定して、実験のバリエーションを定義して実験の期間を決定します。

  2. ユーザーの分割 — ユーザーを 2 つ以上のグループに分割し、コントロールグループと 1 つ以上の実験グループに分けます。

  3. 実験の実行 — 実験グループのユーザーに変更されたレコメンデーションを表示します。コントロールグループのユーザーにはレコメンデーションを変更せずに表示します。レコメンデーションの操作を記録し、結果を追跡します。

  4. 結果の評価 — 実験結果を分析して、変更によって実験グループに統計的に有意な差が生じたかどうかを判断します。

Amazon CloudWatch Evidently を使用して、Amazon Personalize のレコメンデーションで A/B テストを実行できます。 CloudWatch Evidently を使用すると、実験の定義、主要業績評価指標 (KPIs) の追跡、レコメンデーションリクエストトラフィックの関連する Amazon Personalize リソースへのルーティング、実験結果の評価を行うことができます。詳細については、「Evidently での A/B CloudWatch テスト」を参照してください。

A/B テストのベストプラクティス

以下のベストプラクティスを使用し、Amazon Personalize のレコメンデーションの A/B テストを設計および維持に役立てます。

  • 定量化可能なビジネス目標を特定します。比較するさまざまなレコメンデーションがこのビジネス目標と一致していて、異なる目標や定量化できない目標に関連していないことを確認します。

  • ビジネス目標に合致する定量化可能な仮説を定義します。例えば、独自のカスタムメイドのコンテンツをプロモーションで、これらの商品からのクリック数が 20% 増えると予測する場合があります。その仮説によって、実験グループに対して行う変更が決まります。

  • 仮説に関連する主要なパフォーマンス指標 (KPIs) を定義します。実験の結果を測定するKPIsために を使用します。これらは次のとおりになります。

    • クリックスルー率

    • 総再生時間

    • 合計料金

  • 実験に参加するユーザーの総数が、仮説によっては統計的に有意な結果に達するのに十分な数であることを確認します。

  • 実験を開始する前に、トラフィック分割戦略を定義します。実験の実行中に、トラフィックの分割を変更しないでください。

  • 実験に関連する変更 (モデルなど) を除いて、実験グループとコントロールグループの両方でアプリケーションまたはウェブサイトのユーザーエクスペリエンスを同じにします。UI やレイテンシーなどのユーザーエクスペリエンスのばらつきは、誤解を招く結果につながる可能性があります。

  • 祝日、現行のマーケティングキャンペーン、ブラウザの制限などの外部要因を制御します。これらの外部要因は、誤解を招く結果につながる可能性があります。

  • 仮説やビジネス要件に直接関係する場合を除き、Amazon Personalize のレコメンデーションを変更しないでください。フィルターの適用や順序の手動による変更などの変更は、誤解を招く結果につながる可能性があります。

  • 結果を評価するときは、結論を出す前に結果が統計的に有意であることを確認します。業界標準は有意水準 5% です。