使用 Amazon Bedrock Guardrails 阻止模型中的有害内容 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Bedrock Guardrails 阻止模型中的有害内容

Amazon Bedrock Guardrails 使您能够根据自己的用例和负责任的人工智能政策为生成人工智能应用程序实施保护措施。您可以创建针对不同用例量身定制的多个护栏,并将其应用于多个基础模型 (FM),从而在生成式 AI 应用程序中提供一致的用户体验并标准化安全和隐私控制。您可以将护栏与基于文本的用户输入和模型响应一起使用。

护栏可以通过多种方式用于保护生成式人工智能应用程序。例如:

  • 聊天机器人应用程序可以使用护栏来过滤有害的用户输入和有毒的模型响应。

  • 银行应用程序可以使用护栏来屏蔽与寻求或提供投资建议相关的用户查询或模拟响应。

  • 用于汇总用户和代理之间对话记录的呼叫中心应用程序可以使用护栏来编辑用户的个人身份信息 (PII),以保护用户隐私。

您可以在护栏中配置以下策略,以避免出现不良和有害的内容,并删除敏感信息以保护隐私。

  • 内容过滤器-调整过滤器强度以屏蔽包含有害内容的输入提示或建模响应。

  • 拒绝的主题-定义一组在您的应用程序上下文中不受欢迎的话题。如果在用户查询或模型响应中检测到这些主题,则这些主题将被屏蔽。

  • 单词过滤器-配置过滤器以屏蔽不受欢迎的单词、短语和亵渎内容。此类词语可能包括攻击性术语、竞争对手姓名等。

  • 敏感信息过滤器 — 屏蔽或屏蔽用户输入和模型响应中的敏感信息,例如个人身份信息 (PII) 或自定义正则表达式。

  • 情境接地检查 — 根据来源的基础和与用户查询的相关性,检测和过滤模型响应中的幻觉。

除了上述策略外,您还可以配置在用户输入或模型响应违反防护栏中定义的策略时返回给用户的消息。

您可以为护栏创建多个版本的护栏。创建护栏时,系统会自动提供工作草稿供您进行迭代修改。尝试不同的配置,并使用内置的测试窗口来查看它们是否适合您的用例。如果您对一组配置感到满意,则可以创建一个版本的护栏并将其与支持的基础模型一起使用。

在推理API调用FMs期间,可以通过指定护栏 ID 和版本来直接使用护栏。如果使用护栏,它将根据定义的策略评估输入提示和调频完成情况。

对于检索增强生成 (RAG) 或对话应用程序,您可能需要仅评估输入提示中的用户输入,同时丢弃系统指令、搜索结果、对话历史记录或几个简短的示例。要有选择地评估输入提示符的某一部分,请参阅对用户输入应用标签以筛选内容

重要

Amazon Bedrock Guardrails 仅支持英语。评估其他语言的文本内容可能会导致不可靠的结果。