使用 Amazon Bedrock Guardrails 停止模型中的有害內容 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon Bedrock Guardrails 停止模型中的有害內容

Amazon Bedrock Guardrails 可以根據您的使用案例和負責任的 AI 政策,為您的生成 AI 應用程式實作保護措施。您可以建立針對不同使用案例量身打造的多個護欄,並將其套用至多個基礎模型 (FM),提供一致的使用者體驗,並標準化生成式 AI 應用程式的安全性和隱私權控制。您可以搭配文字型使用者輸入和模型回應使用護欄。

護欄可以多種方式使用,以協助保護生成 AI 應用程式。例如:

  • Chatbot 應用程式可以使用護欄來協助篩選有害的使用者輸入和有毒模型回應。

  • 銀行應用程式可以使用護欄協助封鎖與尋求或提供投資建議相關聯的使用者查詢或模型回應。

  • 呼叫中心應用程式可摘要使用者和客服人員之間的對話文字記錄,可使用護欄來修訂使用者的個人身分識別資訊 (PII),以保護使用者隱私權。

Amazon Bedrock Guardrails 支援下列政策:

  • 內容篩選條件 – 調整篩選條件強度,以協助封鎖包含有害內容的輸入提示或模型回應。根據偵測特定預先定義的有害內容類別來篩選文字 - 仇恨、侮辱、性、暴力、行為不當和提示攻擊。

  • 已拒絕的主題 – 定義一組在應用程式內容中不理想的主題。如果在使用者查詢或模型回應中偵測到篩選條件,篩選條件將協助封鎖它們。

  • 單字篩選條件 – 設定篩選條件,以協助封鎖不受歡迎的單字、片語和褻瀆。這類單字可以包含令人反感的詞彙、競爭對手名稱等。

  • 敏感資訊篩選條件 – 設定篩選條件以協助封鎖或遮罩敏感資訊,例如個人識別資訊 (PII),或使用者輸入和模型回應中的自訂 regex。篩選或遮罩文字是根據偵測敏感資訊,例如SSN號碼、出生日期、地址等。這也允許設定識別符模式的規則表達式型偵測。

  • 內容接地檢查 – 根據來源的接地和與使用者查詢的相關性,協助偵測和篩選模型回應中的幻覺。

  • 影像內容篩選條件 – 協助偵測和篩選不適當或有毒的影像內容。使用者可以設定特定類別的篩選條件,並設定篩選條件強度。

除了上述政策之外,您也可以設定在使用者輸入或模型回應違反護欄中定義的政策時,將要傳回給使用者的訊息。

您可以為護欄建立多個護欄版本。當您建立護欄時,系統會自動提供工作草稿,供您反覆修改。使用不同的組態進行實驗,並使用內建測試視窗來查看它們是否適合您的使用案例。如果您對一組組態感到滿意,您可以建立護欄版本,並將其與支援的基礎模型搭配使用。

在推論API調用FMs期間,可以指定護欄 ID 和版本,直接搭配 使用護欄。護欄也可以直接透過 使用, ApplyGuardrailAPI而無需叫用基礎模型。如果使用護欄,它會根據定義的政策評估輸入提示和 FM 完成。

對於擷取擴增產生 (RAG) 或對話式應用程式,您可能需要在捨棄系統指示、搜尋結果、對話歷史記錄或幾個簡短範例時,僅評估輸入提示中的使用者輸入。若要選擇性地評估輸入提示的區段,請參閱 將標籤套用至使用者輸入以篩選內容

重要

Amazon Bedrock Guardrails 支援英文、法文和西班牙文。評估其他語言的文字內容可能會導致結果不可靠。