Amazon Bedrock Guardrails를 사용하여 모델의 유해한 콘텐츠 차단 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Bedrock Guardrails를 사용하여 모델의 유해한 콘텐츠 차단

Amazon Bedrock Guardrails는 사용 사례 및 책임 있는 AI 정책에 따라 생성형 AI 애플리케이션에 대한 보호 기능을 구현할 수 있습니다. 다양한 사용 사례에 맞게 조정된 여러 가드레일을 만들고, 이를 여러 파운데이션 모델(FM)에 적용하여 일관된 사용자 경험을 제공하고 생성형 AI 애플리케이션 전반에서 안전 및 프라이버시 제어를 표준화할 수 있습니다. 가드레일은 텍스트 기반 사용자 입력 및 모델 응답에 사용할 수 있습니다.

생성형 AI 애플리케이션을 보호하는 데 도움이 되는 다양한 방식으로 가드레일을 사용할 수 있습니다. 예시:

  • 챗봇 애플리케이션은 가드레일을 사용하여 유해한 사용자 입력과 모델 응답을 필터링할 수 있습니다.

  • 뱅킹 애플리케이션은 가드레일을 사용하여 투자 조언을 구하거나 제공하는 것과 관련된 사용자 쿼리 또는 모델 응답을 차단할 수 있습니다.

  • 사용자와 에이전트 간의 대화 기록을 요약하는 콜 센터 애플리케이션은 가드레일을 사용하여 사용자의 개인 식별 정보(PII)를 수정하여 사용자 프라이버시를 보호할 수 있습니다.

Amazon Bedrock Guardrails는 다음 정책을 지원합니다.

  • 콘텐츠 필터 - 필터 강도를 조정하여 유해한 콘텐츠가 포함된 입력 프롬프트 또는 모델 응답을 차단할 수 있습니다. 증오, 모욕, 성, 폭력, 불법 행위 및 프롬프트 공격과 같은 사전 정의된 특정 유해 콘텐츠 범주의 탐지를 기반으로 텍스트를 필터링합니다.

  • 거부된 주제 - 애플리케이션의 컨텍스트에서 바람직하지 않은 주제 세트를 정의합니다. 사용자 쿼리 또는 모델 응답에서 이러한 주제가 감지되면 필터가 이를 차단합니다.

  • 단어 필터 - 바람직하지 않은 단어, 문구 및 욕설을 차단하도록 필터를 구성합니다. 이러한 단어에는 불쾌한 용어, 경쟁사 이름 등이 포함될 수 있습니다.

  • 민감한 정보 필터 - 사용자 입력 및 모델 응답에서 개인 식별 정보(PII) 또는 사용자 지정 정규식과 같은 민감한 정보를 차단하거나 가리는 데 도움이 되도록 필터를 구성합니다. 텍스트 필터링 또는 마스킹은 SSN 번호, 생년월일, 주소 등과 같은 민감한 정보의 탐지를 기반으로 합니다. 또한 식별자에 대한 패턴의 정규식 기반 감지를 구성할 수 있습니다.

  • 컨텍스트 근거 검사 - 소스의 근거 및 사용자 쿼리와의 관련성을 기반으로 모델 응답에서 할루시네이션을 감지하고 필터링하는 데 도움이 됩니다.

  • 이미지 콘텐츠 필터 - 부적절하거나 유독한 이미지 콘텐츠를 감지하고 필터링하는 데 도움이 됩니다. 사용자는 특정 범주에 대한 필터를 설정하고 필터 강도를 설정할 수 있습니다.

위의 정책 외에도 사용자 입력 또는 모델 응답이 가드레일에 정의된 정책을 위반하는 경우 사용자에게 반환될 메시지를 구성할 수도 있습니다.

가드레일에 대한 여러 가드레일 버전을 만들 수도 있습니다. 가드레일을 만들면 반복적으로 수정할 수 있는 규격 초안이 자동으로 제공됩니다. 다양한 구성을 실험하고 기본 제공 테스트 창을 사용하여 사용 사례에 적합한지 확인하세요. 구성에 만족하는 경우 가드레일 버전을 만들어 지원되는 파운데이션 모델과 함께 사용할 수 있습니다.

가드레일 ID와 버전을 지정하여 추론 API 호출 FMs 중에와 함께 가드레일을 직접 사용할 수 있습니다. 파운데이션 모델을 호출API하지 않고를 ApplyGuardrail 통해 가드레일을 직접 사용할 수도 있습니다. 가드레일을 사용하는 경우, 정의된 정책에 따라 가드레일이 입력 프롬프트와 FM 완성 텍스트를 평가합니다.

증강 세대(RAG) 또는 대화형 애플리케이션을 검색하는 경우 시스템 지침, 검색 결과, 대화 기록 또는 몇 가지 간단한 예제를 삭제하면서 입력 프롬프트의 사용자 입력만 평가해야 할 수 있습니다. 입력 프롬프트의 섹션을 선택적으로 평가하는 방법은 사용자 입력에 태그를 적용하여 콘텐츠 필터링 섹션을 참조하세요.

중요

Amazon Bedrock Guardrails는 영어, 프랑스어 및 스페인어를 지원합니다. 다른 언어로 텍스트 콘텐츠를 평가하면 신뢰할 수 없는 결과가 나올 수 있습니다.