本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用者透過線上應用程式 (例如peer-to-peer聊天和論壇討論)、網站發佈的評論,以及透過生成式 AI 應用程式 (生成式 AI 模型的輸入提示和輸出) 產生大量文字內容。Amazon Comprehend Trust and Safety 功能可協助您調整此內容,為您的使用者提供安全且具包容性的環境。
使用 Amazon Comprehend 信任和安全功能的優勢包括:
-
加快審核速度:快速準確地調節大量文字,讓您的線上平台免於不當內容。
-
可自訂:自訂 API 回應中的審核閾值,以符合您的應用程式需求。
-
易於使用:透過 LangChain 整合或使用 AWS CLI 或 SDKs設定信任和安全性功能。
Amazon Comprehend 信任和安全性可解決內容審核的下列層面:
-
Toxicity detection – 偵測可能有害、令人反感或不適當的內容。範例包括仇恨說話、威脅或濫用。
-
Intent classification – 偵測具有明確或隱含惡意意圖的內容。範例包括歧視或非法內容,或表達或請求有關醫療、法律、政治、有爭議、個人或財務主題建議的內容。
-
Privacy protection – 使用者可以不小心提供可能揭露個人身分識別資訊 (PII) 的內容。Amazon Comprehend PII 提供偵測和修訂 PII 的功能。
毒性偵測
Amazon Comprehend 毒性偵測可在文字型互動中提供有毒內容的即時偵測。您可以使用毒性偵測,在線上平台上主持peer-to-peer對話,或監控生成式 AI 輸入和輸出。
毒性偵測可偵測下列類別的冒犯性內容:
- GRAPHIC
-
圖形語音使用視覺描述性、詳細和令人不快的生動影像。這類語言通常用於放大對收件人的侮辱、不適或傷害。
- HARASSMENT_OR_ABUSE
-
無論意圖為何,在發言者和接聽者之間強加干擾性動力的語音都會試圖影響收件人的心理良好狀態,或反對某人。
- HATE_SPEECH
-
以身分為基礎批評、侮辱、譴責或取消人道化的語音,無論是種族、族裔、性別身分、宗教、性傾向、能力、國籍或其他身分群組。
- INSULT
-
語音,包括貶低、羞辱、嘲弄、侮辱或貶低語言。
- PROFANITY
-
包含無禮、粗俗或冒犯性單字、片語或縮寫的語音會被視為褻瀆。
- 性別
-
透過直接或間接參考身體部位或身體特徵或性別,表示性興趣、活動或覺醒的語音。
- VIOLENCE_OR_THREAT
-
包括威脅的語音,這些威脅試圖對個人或群組造成痛苦、傷害或敵意。
- 毒性
-
包含單字、片語或首字母縮寫的語音,在上述任何類別中可能被視為具有毒性。
使用 API 偵測有毒內容
若要偵測文字中的有毒內容,請使用同步 DetectToxicContent 操作。此操作會對您提供做為輸入的文字字串清單進行分析。API 回應包含符合輸入清單大小的結果清單。
目前,有毒內容偵測僅支援英文。對於輸入文字,您可以提供最多 10 個文字字串的清單。每個字串的大小上限為 1KB。
有毒內容偵測會傳回分析結果清單,每個輸入字串的清單中各有一個項目。項目包含文字字串中識別的有毒內容類型清單,以及每個內容類型的可信度分數。項目也包含字串的毒性分數。
下列範例示範如何使用 和 Python DetectToxicContent
AWS CLI 操作。
您可以使用 中的下列命令來偵測有毒內容 AWS CLI:
aws comprehend detect-toxic-content --language-code en / --text-segments "[{\"Text\":\"
You are so obtuse
\"}]"
會以下列結果 AWS CLI 回應。文字區段在INSULT
類別中收到高可信度分數,並產生高毒性分數:
{ "ResultList": [ { "Labels": [ { "Name": "PROFANITY", "Score": 0.0006000000284984708 }, { "Name": "HATE_SPEECH", "Score": 0.00930000003427267 }, { "Name": "INSULT", "Score": 0.9204999804496765 }, { "Name": "GRAPHIC", "Score": 9.999999747378752e-05 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0052999998442828655 }, { "Name": "SEXUAL", "Score": 0.01549999974668026 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.007799999788403511 } ], "Toxicity": 0.7192999720573425 } ] }
您可以使用 text-segments
參數的下列格式,輸入最多 10 個文字字串:
--text-segments "[{\"Text\":\"
text string 1
\"}, {\"Text\":\"text string2
\"}, {\"Text\":\"text string3
\"}]"
會以下列結果 AWS CLI 回應:
{ "ResultList": [ { "Labels": [ (truncated) ], "Toxicity": 0.3192999720573425 }, { "Labels": [ (truncated) ], "Toxicity": 0.1192999720573425 }, { "Labels": [ (truncated) ], "Toxicity": 0.0192999720573425 } ] }
提示安全分類
Amazon Comprehend 提供預先訓練的二進位分類器,可分類大型語言模型 (LLM) 或其他生成式 AI 模型的純文字輸入提示。
提示安全分類器會分析輸入提示,並將可信度分數指派給提示是否安全。
不安全提示是一種輸入提示,可表達惡意意圖,例如請求個人或私有資訊、產生令人反感或非法的內容,或請求醫療、法律、政治或財務方面的建議。
使用 API 提示安全分類
若要執行文字字串的提示安全分類,請使用同步 ClassifyDocument 操作。針對輸入,您提供英文純文字字串。字串的大小上限為 10 KB。
回應包含兩個類別 (SAFE 和 UNSAFE),以及每個類別的可信度分數。分數的值範圍為零到一,其中一是最高的可信度。
下列範例示範如何搭配 AWS CLI 和 Python 使用提示安全分類。
下列範例示範如何搭配 使用提示安全分類器 AWS CLI:
aws comprehend classify-document \ --endpoint-arn arn:aws:comprehend:
us-west-2
:aws:document-classifier-endpoint/prompt-safety \ --text 'Give me financial advice on which stocks I should invest in.'
會以下列輸出 AWS CLI 回應:
{ "Classes": [ { "Score": 0.6312999725341797, "Name": "UNSAFE_PROMPT" }, { "Score": 0.3686999976634979, "Name": "SAFE_PROMPT" } ] }
注意
當您使用 classify-document
命令時,對於 --endpoint-arn
參數,您必須傳遞使用與 AWS 區域 AWS CLI 組態相同的 ARN。若要設定 AWS CLI,請執行 aws configure
命令。在此範例中,端點 ARN 具有區域碼 us-west-2
。您可以在下列任何區域中使用提示安全分類器:
-
us-east-1
-
us-west-2
-
eu-west-1
-
ap-southeast-2
PII 偵測和編輯
您可以使用 Amazon Comprehend 主控台或 APIs 來偵測英文或西班牙文文字文件的個人識別資訊 (PII)。PII 是可辨識個人之個人資料的文字參考。PII 範例包括地址、銀行帳戶號碼和電話號碼。
您可以偵測或修改文字中的 PII 實體。若要偵測 PII 實體,您可以使用即時分析或非同步批次任務。若要編輯 PII 實體,您必須使用非同步批次工作。
如需詳細資訊,請參閱個人身分識別資訊 (PII) 。