Amazon Bedrock ガードレールを使用してモデルで有害なコンテンツを阻止する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock ガードレールを使用してモデルで有害なコンテンツを阻止する

Amazon Bedrock ガードレールは、ユースケースと責任ある AI ポリシーに基づいて、生成 AI アプリケーションの保護を実装できます。多様なユースケースに合わせた複数のガードレールを作成し、複数の基盤モデル (FM) をまたいで適用することで、一貫したユーザーエクスペリエンスを提供し、生成 AI アプリケーション全体の安全とプライバシーの統制を標準化できます。ガードレールは、自然言語でのユーザー入力とモデルレスポンスの両方に使用できます。

ガードレールを複数の方法で使用して、生成 AI アプリケーションの保護に役立てることができます。以下に例を示します。

  • チャットボットアプリケーションでガードレールを使用して、有害なユーザー入力と毒性のあるモデルレスポンスをフィルタリングできます。

  • 銀行アプリケーションでガードレールを使用して、投資アドバイスを求めるユーザークエリや、投資アドバイスを行うモデルレスポンスをブロックできます。

  • コールセンターでユーザーとエージェントの会話を文字で起こして要約するアプリケーションで、ガードレールを使用して個人を特定できる情報 (PII) を秘匿化し、ユーザーのプライバシーを保護できます。

Amazon Bedrock ガードレールは、次のポリシーをサポートしています。

  • コンテンツフィルター – フィルターの強度を調整して、有害なコンテンツを含む入力プロンプトやモデルレスポンスをブロックできます。フィルタリングは、憎悪、侮辱、性的、暴力、不正行為、プロンプト攻撃など、事前に定義された特定の有害コンテンツカテゴリの検出に基づいて行われます。

  • 拒否トピック – アプリケーションのコンテキストでは望ましくない一連のトピックを定義しておきます。定義したトピックがユーザークエリやモデルレスポンスで検出された場合に、ブロックできます。

  • 単語フィルター – 望ましくない単語、フレーズ、冒涜的表現 (完全一致) をブロックするのに役立つフィルターを設定します。対象となる単語は、不快な用語、競合相手の名前などです。

  • 機密情報フィルター – ユーザー入力やモデルレスポンスで、個人を特定できる情報 (PII) などの機密情報やカスタムの正規表現をブロックまたはマスク処理するようにフィルターを設定します。ブロックまたはマスキングは、SSN 番号、生年月日、住所などのエンティティにおける標準形式の機密情報の確率的検出に基づいて行われます。これにより、識別子のパターンの正規表現ベースの検出を設定することもできます。

  • コンテキストグラウンディングチェック – 情報源の接続 (グラウンディング) やユーザークエリとの関連性に基づいて、モデルレスポンスのハルシネーション (事実に基づかない誤情報が生成されること) を検出し、フィルタリングすることができます。

  • イメージコンテンツフィルター – 不適切または有害なイメージコンテンツを検出してフィルタリングするのに役立ちます。ユーザーは、特定のカテゴリのフィルターを設定し、フィルター強度を設定できます。

上記のポリシーに加えて、ガードレールで定義されているポリシーにユーザー入力またはモデルレスポンスが違反した場合に、ユーザーに返すメッセージを設定しておくこともできます。

さまざまな設定を試してベンチマークし、組み込みのテストウィンドウを使用して、結果がユースケースの要件を満たしていることを確認します。ガードレールを作成すると、作業中のドラフトが自動的に利用可能になり、これを繰り返し変更できます。さまざまな設定を試し、組み込みのテストウィンドウを使用して、ユースケースに適しているかどうかを確認します。一連の設定内容に満足したら、ガードレールのバージョンを作成し、サポートされている基盤モデルで使用できます。

ガードレールは、推論 API の呼び出し時にガードレール ID とバージョンを指定することで、FM で直接使用できます。ガードレールは、基盤モデルを呼び出すことなく、ApplyGuardrail API から直接使用することもできます。ガードレールを使用すると、入力プロンプトと FM のレスポンスが定義済みのポリシーに照らして評価されます。

検索拡張生成 (RAG) または会話型のアプリケーションの場合、入力プロンプトのユーザー入力だけを評価し、システムの指示、検索結果、会話履歴、いくつかの短い例は評価の対象から外してもよい場合があります。入力プロンプトのセクションを選択的に評価するには、「ユーザー入力にタグを適用してコンテンツをフィルタリングする」を参照してください。

重要
  • Amazon Bedrock ガードレールは、自然言語で英語、フランス語、スペイン語をサポートしています。ガードレールは他の言語では効果がありません。