민감한 정보 필터를 사용하여 대화에서 PII 제거 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

민감한 정보 필터를 사용하여 대화에서 PII 제거

Amazon Bedrock Guardrails는 입력 프롬프트 또는 모델 응답에서 개인 식별 정보(PIIs)와 같은 민감한 정보를 표준 형식으로 감지하는 데 도움이 됩니다. 민감한 정보를 정규식(regex)으로 정의하여 사용 사례 또는 조직에 해당하는 민감한 정보를 구성할 수도 있습니다.

민감한 정보가 가드레일에 의해 감지되면 다음과 같은 정보 처리 모드를 구성할 수 있습니다.

  • 차단 - 민감한 정보 필터 정책은 민감한 정보에 대한 요청을 차단할 수 있습니다. 이러한 애플리케이션의 예로는 공개 문서를 기반으로 하는 일반적인 질문 및 답변 애플리케이션이 포함될 수 있습니다. 프롬프트 또는 응답에서 민감한 정보가 감지되면 가드레일이 모든 콘텐츠를 차단하고 사용자가 구성한 메시지를 반환합니다.

  • 마스킹 - 민감한 정보 필터 정책은 모델 응답의 정보를 마스킹하거나 수정할 수 있습니다. 예를 들어, 가드레일이 사용자와 고객 서비스 에이전트 간의 대화 요약을 생성하는 과정에서 PII를 마스킹 처리할 수 있습니다. 모델 응답에서 민감한 정보가 감지되면 가드레일은 식별자로 이를 마스킹합니다. 마스킹 처리된 민감한 정보는 식별자 태그(예: [NAME-1], [NAME-2], [EMAIL-1] 등)로 대체됩니다.

Amazon Bedrock Guardrails는 민감한 정보를 차단하거나 마스킹할 수 있도록 다음과 같은 PII를 제공합니다.

  • 일반

    • ADDRESS

      실제 주소(예: “100 Main Street, Anytown, USA" 또는 "Suite #12, Building 123") 주소에는 거리, 건물, 위치, 도시, 주, 국가, 카운티, 우편번호, 구역, 타운 등의 정보가 포함될 수 있습니다.

    • AGE

      개인의 연령(수량 및 시간 단위 포함). 예를 들어, Amazon Bedrock Guardrails는 ‘저는 40세입니다’라는 문구에서 ‘40세’를 연령으로 인식합니다.

    • NAME

      개인의 이름. 이 개체 유형에는 Dr., Mr., Mrs., Miss 등의 호칭은 포함되지 않습니다. Amazon Bedrock Guardrails는 조직 또는 주소의 일부인 이름에는 이 엔터티 유형을 적용하지 않습니다. 예를 들어 Amazon Bedrock Guardrails는 ‘아무개 조직(John Doe Organization)’을 하나의 조직으로 인식하고 ‘아무개 도로(Jane Doe Street)’를 주소로 인식합니다.

    • EMAIL

      이메일 주소(예: marymajor@email.com)입니다.

    • PHONE

      전화번호 이 엔터티 유형에는 팩스 및 호출기 번호도 포함됩니다.

    • USERNAME

      계정을 식별하는 사용자 이름(예: 로그인 이름, 화면 이름, 닉네임 또는 핸들).

    • PASSWORD

      비밀번호로 사용되는 영숫자 문자열(예: ‘*very20special#pass*’)입니다.

    • DRIVER_ID

      개인이 공공 도로에서 한 대 이상의 자동차를 운전할 수 있도록 허가하는 공식 문서인 운전면허증에 부여되는 번호입니다. 운전면허증 번호는 영숫자로 구성됩니다.

    • LICENSE_PLATE

      차량 번호판은 차량이 등록된 주 또는 국가에서 발급합니다. 승용차의 형식은 일반적으로 대문자와 숫자로 구성된 5~8자리 숫자입니다. 형식은 발급한 주 또는 국가의 위치에 따라 다릅니다.

    • VEHICLE_IDENTIFICATION_NUMBER

      차량 식별 번호(VIN)는 차량을 고유하게 식별합니다. VIN 콘텐츠와 형식은 ISO 3779 사양에 정의되어 있습니다. 각 국가별로 VIN에 대한 특정 코드와 형식을 가지고 있습니다.

  • Finance

    • CREDIT_DEBIT_CARD_CVV

      비자, 마스터카드, 디스커버 신용카드 및 직불카드에 있는 3자리 카드 인증 코드(CVV). 아메리칸 익스프레스 신용카드나 직불카드의 경우 CVV는 4자리 숫자 코드입니다.

    • CREDIT_DEBIT_CARD_EXPIRY

      신용카드 또는 직불카드 만료 날짜 이 숫자는 보통 네 자리 숫자이며, 월/년 또는 MM/YY 형식인 경우가 많습니다. Amazon Bedrock Guardrails는 01/21, 01/2021, Jan 2021과 같은 만료 날짜를 인식합니다.

    • CREDIT_DEBIT_CARD_NUMBER

      신용카드 또는 직불카드 번호 이 번호의 길이는 13~16자리까지 다양합니다. 그러나 Amazon Bedrock은 마지막 4자리만 있는 경우 신용 카드 또는 직불 카드 번호도 인식합니다.

    • PIN

      은행 계좌에 액세스할 수 있는 4자리 개인 식별 번호(PIN).

    • INTERNATIONAL_BANK_ACCOUNT_NUMBER

      국제 은행 계좌 번호의 형식은 국가별로 다릅니다. 자세한 내용은 www.iban.com/structure를 참조하세요.

    • SWIFT_CODE

      SWIFT 코드는 특정 은행 또는 지점을 지정하는 데 사용되는 은행 식별 코드(BIC) 의 표준 형식입니다. 은행은 이 코드를 국제 전신 송금과 같은 송금에 사용합니다.

      SWIFT 코드는 8자 또는 11자로 구성됩니다. 11자리 코드는 특정 지점을 나타내며, 8자리 코드(또는 'XXX'로 끝나는 11자리 코드)는 본점 또는 주요 사무소를 나타냅니다.

  • IT

    • IP_ADDRESS

      IPv4 주소(예: 198.51.100.0)입니다.

    • MAC_ADDRESS

      미디어 액세스 제어(MAC) 주소는 네트워크 인터페이스 컨트롤러(NIC)에 할당되는 고유 식별자입니다.

    • URL

      웹 주소(예: www.example.com)입니다.

    • AWS_ACCESS_KEY

      비밀 액세스 키와 연결된 고유 식별자, 액세스 키 ID 및 보안 액세스 키를 함께 사용하여 프로그래밍 방식으로 된 AWS 요청에 암호화 방식으로 서명합니다.

    • AWS_SECRET_KEY

      액세스 키와 관련된 고유 식별자. 액세스 키 ID와 보안 액세스 키를 사용하여 프로그래밍 방식의 AWS 요청에 암호화 방식으로 서명합니다.

  • 미국 전용

    • US_BANK_ACCOUNT_NUMBER

      일반적으로 10~12자리 길이의 미국 은행 계좌 번호입니다.

    • US_BANK_ROUTING_NUMBER

      미국 은행 계좌 라우팅 번호. 일반적으로 9자리 숫자입니다.

    • US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

      미국 개인 납세자 식별 번호(ITIN)는 “9"로 시작하고 네 번째 자리로 “7" 또는 “8"이 포함된 9자리 숫자입니다. ITIN은 세 번째 및 네 번째 숫자 뒤에 공백이나 대시를 사용하여 형식을 지정할 수 있습니다.

    • US_PASSPORT_NUMBER

      미국 여권 번호 여권 번호의 범위는 6~9자의 영숫자입니다.

    • US_SOCIAL_SECURITY_NUMBER

      미국 사회보장번호(SSN)는 미국 시민권자, 영주권자 및 임시 근로 거주자에게 발급되는 9자리 숫자입니다.

  • 캐나다 전용

    • CA_HEALTH_NUMBER

      캐나다 보건 서비스 번호는 개인이 의료 혜택을 받는 데 필요한 10자리 고유 식별자입니다.

    • CA_SOCIAL_INSURANCE_NUMBER

      캐나다 사회보험 번호(SIN)는 개인이 정부 프로그램 및 혜택을 이용할 때 필요한 9자리 고유 식별자입니다.

      SIN은 세 자리 숫자가 세 개의 그룹 형식으로 되어 있습니다(예: 123-456-789). SIN은 Luhn 알고리즘이라는 간단한 숫자 확인 프로세스를 통해 검증할 수 있습니다.

  • 영국 전용

    • UK_NATIONAL_HEALTH_SERVICE_NUMBER

      영국 국민 보건 서비스 번호는 10~17자리 숫자로, 예를 들어 485 777 3456입니다. 현재 시스템에서는 세 번째와 여섯 번째 자리 뒤에 공백을 넣어 10자리 숫자 형식을 지정합니다. 마지막 숫자는 오류 감지 체크섬입니다.

    • UK_NATIONAL_INSURANCE_NUMBER

      영국 국민보험번호(NINO)는 개인에게 국민보험(사회보장) 혜택을 제공합니다. 또한 영국 조세 시스템에서도 일부 용도로 사용됩니다.

      이 번호는 9자리 길이이며 문자 2개로 시작하고 그 뒤에 숫자 6개와 문자 1개가 옵니다. NINO는 문자 2개 뒤와 두 번째, 네 번째, 여섯 번째 숫자 뒤에 공백이나 대시를 넣어 형식을 지정할 수 있습니다.

    • UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

      영국 고유 납세자 참조(UTR)는 납세자 또는 사업체를 식별하는 10자리 숫자입니다.

  • PIIs

    • 일반

      ADDRESS

      실제 주소(예: “100 Main Street, Anytown, USA" 또는 "Suite #12, Building 123") 주소에는 거리, 건물, 위치, 도시, 주, 국가, 카운티, 우편번호, 구역, 타운 등의 정보가 포함될 수 있습니다.

    • AGE

      개인의 연령(수량 및 시간 단위 포함). 예를 들어, Amazon Bedrock Guardrails는 ‘저는 40세입니다’라는 문구에서 ‘40세’를 연령으로 인식합니다.

    • NAME

      개인의 이름. 이 개체 유형에는 Dr., Mr., Mrs., Miss 등의 호칭은 포함되지 않습니다. Amazon Bedrock Guardrails는 조직 또는 주소의 일부인 이름에는 이 엔터티 유형을 적용하지 않습니다. 예를 들어 Amazon Bedrock Guardrails는 ‘아무개 조직(John Doe Organization)’을 하나의 조직으로 인식하고 ‘아무개 도로(Jane Doe Street)’를 주소로 인식합니다.

    • 영국 전용

      UK_NATIONAL_HEALTH_SERVICE_NUMBER

      영국 국민 보건 서비스 번호는 10~17자리 숫자로, 예를 들어 485 777 3456입니다. 현재 시스템에서는 세 번째와 여섯 번째 자리 뒤에 공백을 넣어 10자리 숫자 형식을 지정합니다. 마지막 숫자는 오류를 감지하는 체크섬입니다.

    • UK_NATIONAL_INSURANCE_NUMBER

      영국 국민보험번호(NINO)는 개인에게 국민보험(사회보장) 혜택을 제공합니다. 또한 영국 조세 시스템에서도 일부 용도로 사용됩니다.

  • 사용자 지정

    • 정규식 필터

      정규식을 사용하여 일련 번호 또는 예약 ID와 같이 가드레일이 인식하고 조치를 취할 수 있는 패턴을 정의할 수 있습니다.

참고

PII 모델에는 충분한 컨텍스트가 제공되면 더 효과적으로 작동합니다. 정확도를 높이려면 더 많은 컨텍스트 정보를 포함하고 모델에 단일 단어 또는 짧은 문구를 제출하지 마세요. PII는 컨텍스트에 따라 달라질 수 있으므로(예: 숫자 문자열은 주변 정보에 따라 AWS 키 또는 사용자 ID를 나타낼 수 있음), 정확한 식별을 위해서는 포괄적인 컨텍스트를 제공하는 것이 중요합니다.

참고

민감한 정보 필터의 사용자 지정 정규식 필터는 정규식 룩어라운드 일치를 지원하지 않습니다.