使用 Amazon Bedrock 防护机制阻止模型中的有害内容 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Bedrock 防护机制阻止模型中的有害内容

Amazon Bedrock Guardrails 可以根据您的用例和负责任的人工智能政策,为您的生成人工智能应用程序实施保护措施。您可以针对不同的应用场景创建多个定制的防护机制,并将其应用于多个基础模型(FM),从而在生成式人工智能应用程序中提供一致的用户体验,并实现安全和隐私控制的标准化。您可以使用护栏来控制用户输入和使用自然语言的模型响应。

防护机制可以通过多种方式帮助保护生成式人工智能应用程序。例如:

  • 聊天机器人应用程序可以使用防护机制来帮助筛选不良的用户输入和有害的模型响应。

  • 银行应用程序可以使用防护机制来帮助屏蔽与寻求或提供投资建议相关的用户查询或模型响应。

  • 用于汇总用户和座席之间的对话记录的呼叫中心应用程序可以使用防护机制来编辑用户的个人身份信息(PII),以保护用户隐私。

Amazon Bedrock Guardrails 支持以下政策:

  • 内容筛选条件 – 调整筛选条件的强度,以帮助屏蔽包含有害内容的输入提示或模型响应。过滤是基于对某些预定义的有害内容类别的检测来完成的,这些类别包括仇恨、侮辱、性、暴力、不当行为和即时攻击。

  • 拒绝的主题 – 定义一组在您的应用程序上下文中不可接受的主题。如果系统在用户查询或模型响应中检测到这些主题,筛选条件将帮助屏蔽它们。

  • 单词过滤器-配置过滤器以帮助屏蔽不受欢迎的单词、短语和亵渎内容(完全匹配)。包括冒犯性用语、竞争对手名称等。

  • 敏感信息筛选条件 – 配置筛选条件来帮助屏蔽或掩蔽敏感信息,例如用户输入和模型响应中的个人身份信息(PII)或自定义正则表达式。屏蔽或屏蔽是基于对实体中标准格式的敏感信息的概率检测来完成的,例如SSN号、出生日期、地址等。这还允许配置基于正则表达式的标识符模式检测。

  • 上下文接地检查 – 根据对信息来源的验证和与用户查询的相关性,帮助检测和筛选模型响应中的幻觉。

  • 图像内容过滤器-帮助检测和过滤不当或有毒的图像内容。用户可以为特定类别设置过滤器并设置过滤强度。

除了上述策略外,您还可以配置当用户输入或模型响应违反防护机制中定义的策略时返回给用户的消息。

使用不同的配置进行实验和基准测试,并使用内置的测试窗口来确保结果符合您的用例要求。创建防护机制时,系统会自动生成工作草稿,供您进行迭代修改。您可以尝试不同的配置,并使用内置的测试窗口来确定它们能否满足您的应用场景的需求。确定配置正确无误后,您可以创建相应版本的防护机制并将其应用于支持的基础模型。

在推理 API 调用 FMs 期间,可以通过指定护栏 ID 和版本直接使用护栏。也可以直接通过 ApplyGuardrail API 使用护栏,无需调用基础模型。如果使用防护机制,它将根据定义的策略评估输入提示和基础模型的输出。

对于检索增强生成(RAG)或对话应用程序,您可能只需要评估输入提示中的用户输入,而忽略系统指令、搜索结果、对话历史记录或少量简短的示例。要选择性地评估输入提示的某一部分,请参阅用标签标记用户输入以筛选内容

重要
  • Amazon Bedrock Guardrails 支持自然语言中的英语、法语和西班牙语。使用任何其他语言时,护栏都将无效。