가드레일의 구성 요소 - Amazon Bedrock

가드레일의 구성 요소

Amazon Bedrock Guardrails는 원하지 않는 유해한 콘텐츠를 방지하고 개인정보 보호를 위해 민감한 정보를 제거하거나 가리도록 구성할 수 있는 다양한 필터링 정책 모음으로 구성됩니다.

가드레일에서 다음 정책을 구성할 수 있습니다.

  • 콘텐츠 필터 - 증오, 모욕, 성적, 폭력적, 불법(범죄 행위 포함) 콘텐츠 같은 유해한 콘텐츠 및 프롬프트 공격(프롬프트 인젝션 및 탈옥)을 포함하는 입력 프롬프트 또는 모델 응답을 차단하도록 임계값을 구성할 수 있습니다. 예를 들어, 전자 상거래 사이트에서 증오 발언이나 모욕과 같은 부적절한 언어가 사용되지 않도록 온라인 어시스턴트를 설계할 수 있습니다.

  • 거부된 주제 - 생성형 AI 애플리케이션 내에서 피해야 할 주제 세트를 정의할 수 있습니다. 예를 들어, 뱅킹 어시스턴트 애플리케이션에서 불법 투자 조언과 관련된 주제를 피하도록 설계할 수 있습니다.

  • 단어 필터 - 사용자와 생성형 AI 애플리케이션 간의 상호 작용에서 특정 단어 또는 문구를 감지하고 차단하도록 구성할 수 있습니다. 예를 들어, 비속어뿐만 아니라 경쟁사 이름이나 기타 불쾌한 단어와 같은 단어를 사용자 지정하여 탐지하고 차단할 수 있습니다.

  • 민감한 정보 필터 - 사용자 입력 및 FM 응답에서 개인 식별 정보(PII) 또는 사용자 지정 정규식 엔터티와 같은 민감한 콘텐츠를 감지하는 데 도움이 될 수 있습니다. 사용 사례에 따라 민감한 정보가 포함된 입력을 거부하거나 FM 응답에서 수정할 수 있습니다. 예를 들어, 고객 및 에이전트 대화 트랜스크립트에서 요약을 생성할 때 사용자의 개인 정보를 삭제할 수 있습니다.

  • 컨텍스트 근거 검사 - 모델 응답이 소스 정보에 근거하지 않거나(실제로 부정확하거나 새 정보가 추가된 경우) 사용자의 쿼리와 관련이 없는 경우, 모델 응답에서 할루시네이션을 감지하고 필터링할 수 있습니다. 예를 들어, 모델 응답이 검색된 구절의 정보에서 벗어나거나 사용자의 질문에 대한 답변이 되지 않는 경우 RAG 애플리케이션(검색 증강 생성)의 응답을 차단하거나 플래그를 지정할 수 있습니다.