翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ストリーミングレスポンスの動作を設定してコンテンツをフィルタリングする
InvokeModelWithResponseStream API は、ストリーミング形式でデータを返します。そのため、結果が全部返されるまで待たなくても、チャンクごとにレスポンスを確認できます。ストリーミングレスポンスでガードレールを使用する場合、同期と非同期の 2 つの処理モードがあります。
同期モード
デフォルトの同期モードでは、ガードレールはバッファリングして、設定済みのポリシーを 1 つ以上の応答チャンクに適用してから、レスポンスをユーザに返送します。同期処理モードの場合、ガードレールによるスキャンが終わるまでレスポンスが遅れるため、応答チャンクにある程度のレイテンシーが生じます。ただし、すべての応答チャンクがガードレールによってスキャンされてからユーザーに送信されるため、精度は向上します。
非同期モード
非同期モードでは、ガードレールは応答チャンクが利用可能になり次第、ユーザーに送信し、設定済みポリシーはバックグラウンドで非同期に適用します。応答チャンクがレイテンシーへの影響なく即座に提供される点がメリットですが、ガードレールによるスキャンが完了するまでの間に、応答チャンクに不適切なコンテンツが含まれる可能性があります。不適切なコンテンツが特定され次第、後続のチャンクはガードレールによってブロックされます。
警告
モデルレスポンスに含まれる機密情報のマスク処理という点では、非同期モードの場合、ガードレールがモデルレスポンス内の機密コンテンツを検出してマスク処理する前に、素のレスポンスがユーザーに返される可能性があるため、影響が深刻化しかねません。したがって、そうしたユースケースでは、非同期モードは推奨されません。
非同期モードを有効にする
非同期モードを有効にするには、InvokeModelWithResponseStream
リクエストの amazon-bedrock-guardrailConfig
オブジェクトに streamProcessingMode
パラメータを含める必要があります。
{ "amazon-bedrock-guardrailConfig": { "streamProcessingMode": "ASYNCHRONOUS" } }
同期モードと非同期モードのトレードオフを理解することで、レイテンシーとコンテンツモデレーションの正確性に関するアプリケーションの要件に基づいて、適切なモードを選択できます。