ガードレールを作成する

Amazon Bedrock ガードレールには、望ましくないコンテンツや有害なコンテンツを回避し、プライバシー保護のために機密情報を削除またはマスクするように設定できるフィルターが用意されています。

Amazon Bedrock ガードレールでは、次のフィルターを設定できます。

コンテンツフィルター — このフィルターは、入力プロンプトまたはモデルレスポンス (推論コンテンツを除く) で有害なテキストまたは画像コンテンツを検出してフィルタリングするのに役立ちます。フィルタリングは、ヘイト、侮辱、性的、暴力、不正行為、プロンプト攻撃など、事前に定義された特定の有害なコンテンツカテゴリの検出に基づいて行われます。ユースケースに基づいて、これらのカテゴリごとにフィルタ強度を設定できます。標準階層では、コメント、変数名と関数名、文字列リテラルなどのコード要素内の有害なコンテンツから保護するために、望ましくないコンテンツの検出を拡張します。
プロンプト攻撃 — このフィルターは、コンテンツフィルター内のカテゴリとして提供され、ジェイルブレーク、プロンプトインジェクション、プロンプト漏洩などのプロンプト攻撃を検出してフィルタリングするのに役立ちます (標準階層のみ）。この機能は、コンテンツのモデレーションを回避したり、指示を上書きしたり、有害なコンテンツを生成したりすることを目的としたプロンプトを検出するのに役立ちます。
拒否トピック — 生成 AI アプリケーション内で回避するトピックのセットを定義できます。例えば、銀行アシスタントアプリケーションは、違法な投資アドバイスに関連するトピックを回避するのに役立つように設計されています。標準階層では、コンテンツフィルターはコードドメインに拡張されます。
単語フィルター — ユーザーと生成 AI アプリケーション間のやり取りを検出してブロックする一連のカスタム単語またはフレーズ (完全一致) を定義できます。たとえば、冒涜的表現 (ready-to-useオプションを使用) や、競合相手の名前などの特定のカスタム単語、またはその他の不快な単語を検出してブロックできます。
機密情報フィルター – ユーザー入力と FM レスポンスで標準形式の個人を特定できる情報 (PII) やカスタム正規表現エンティティなどの機密コンテンツを検出するのに役立ちます。このフィルターは、コンテキストに依存する確率的学習 (ML) ベースのソリューションです。入力プロンプトまたはモデルレスポンス内のコンテキストに基づいて機密情報を検出します。ユースケースに基づいて、機密情報を含む入力とレスポンスをブロックまたはマスクできます。たとえば、顧客とエージェントの会話のトランスクリプトから概要を生成しながら、ユーザーの個人情報を編集できます。
コンテキストグラウンディングチェック — モデルレスポンスのハルシネーションがソース情報に基づいていない場合 (事実上不正確であるか、新しい情報を追加した場合）、またはユーザーのクエリと無関係である場合に、検出してフィルタリングするのに役立ちます。たとえば、モデルレスポンスが取得されたパッセージの情報から逸脱している場合、またはユーザーからの質問に回答しない場合、RAG (取得拡張生成) アプリケーションでレスポンスをブロックまたはフラグ付けできます。
自動推論チェック – モデルレスポンスが定義した論理ルールとポリシーに準拠していることを検証するのに役立ちます。推論要件を指定する自然言語を使用してポリシーを作成できます。自動推論チェックでは、モデル出力がこれらの論理制約に準拠しているかどうかが評価されます。たとえば、カスタマーサービスチャットボットがインベントリで利用可能な製品のみを推奨するようにしたり、財務上のアドバイスが規制コンプライアンスルールに従っていることを確認したりできます。

注記

上記のポリシーによってブロックされたコンテンツはすべて、Amazon Bedrock モデル呼び出しログにプレーンテキストとして表示されます (ログを有効にしている場合)。ブロックされたコンテンツをログにプレーンテキストとして表示しない場合は、Amazon Bedrock 呼び出しログを無効にすることができます。

ガードレールには、プロンプトとユーザーのレスポンスがブロックされたときのフィルターとメッセージングが少なくとも 1 つ含まれている必要があります。デフォルトのメッセージングを使用することもできます。「ガードレールを変更する」の手順に従って後からフィルターを追加し、ガードレールで反復処理することができます。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ガードレールにリソースベースのポリシーを使用する

コンテンツフィルターを設定する