PII 개체 감지 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

PII 개체 감지

Amazon Comprehend를 사용하여 영어 또는 스페인어 텍스트 문서의 PII엔터티를 감지할 수 있습니다. PII 엔터티는 특정 유형의 개인 식별 정보()입니다PII. PII 감지를 사용하여 텍스트에서 PII엔터티를 찾거나 엔터PII티를 수정합니다.

PII 엔터티 찾기

텍스트에서 PII엔터티를 찾으려면 실시간 분석을 사용하여 단일 문서를 빠르게 분석할 수 있습니다. 문서 모음에서 비동기 배치 작업을 시작할 수도 있습니다.

콘솔 또는 를 사용하여 단일 문서의 API 실시간 분석을 수행할 수 있습니다. 입력 텍스트에는 최대 100KB의 UTF-8 인코딩 문자가 포함될 수 있습니다.

예를 들어 다음 입력 텍스트를 제출하여 PII엔터티를 찾을 수 있습니다.

Paulo Santos님, 안녕하세요? 귀하의 신용카드 계좌 1111-0000-1111-0000의 최신 명세서가 123 Any Street, Seattle, WA 98109로 우편 발송되었습니다.

출력물에는 “Paul Santos”라는 NAME유형, “1111-0000-1111-0000"라는 CREDIT_DEBIT_NUMBER유형 및 “123 Any Street, Seattle, WA 98109"는 ADDRESS 유형이라는 정보가 포함됩니다.

Amazon Comprehend는 감지된 PII엔터티 목록을 각 엔PII터티에 대해 다음 정보와 함께 반환합니다.

  • 감지된 텍스트 범위가 감지된 개체 유형일 확률을 추정하는 점수.

  • PII 엔터티 유형입니다.

  • 문서의 PII엔터티 위치로, 엔터티의 시작과 끝에 대한 문자 오프셋으로 지정됩니다.

예를 들어, 앞서 언급한 입력 텍스트는 다음과 같은 응답을 생성합니다.

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

PII 엔터티 수정

텍스트의 PII엔터티를 수정하려면 콘솔 또는 를 사용하여 비동기 배치 작업을 API 시작할 수 있습니다. Amazon Comprehend는 각 PII엔터티에 대한 수정 사항이 포함된 입력 텍스트의 사본을 반환합니다.

예를 들어 다음 입력 텍스트를 제출하여 PII엔터티를 수정할 수 있습니다.

Paulo Santos님, 안녕하세요? 귀하의 신용카드 계좌 1111-0000-1111-0000의 최신 명세서가 123 Any Street, Seattle, WA 98109로 우편 발송되었습니다.

출력파일은 다음 텍스트를 포함합니다.

***** ******님, 안녕하세요? 귀하의 신용카드 계좌 *******************의 최신 명세서가 *** *** ******* ******** ** *****로 우편 발송되었습니다.

PII 범용 엔터티 유형

이메일 주소 및 신용카드 번호와 같은 일부 PII 엔터티 유형은 범용입니다(개별 국가에만 해당되지 않음). Amazon Comprehend는 다음과 같은 유형의 범용 PII엔터티를 감지합니다.

ADDRESS

“100 Main Street, Anytown, USA“ 또는 “Suite #12, Building 123”과 같은 물리적 주소입니다. 주소에는 거리, 건물, 위치, 도시, 주, 국가, 카운티, 우편번호, 구역, 타운 등의 정보가 포함될 수 있습니다.

AGE

개인의 연령(수량 및 시간 단위 포함). 예를 들어, Amazon Comprehend는 “저는 40세입니다”라는 문구에서 “40세”를 연령으로 인식합니다.

AWS_ACCESS_KEY

보안 액세스 키와 연결된 고유 식별자입니다. 액세스 키 ID와 보안 액세스 키를 사용하여 프로그래밍 방식의 AWS 요청에 암호화 방식으로 서명합니다.

AWS_SECRET_KEY

액세스 키와 관련된 고유 식별자. 액세스 키 ID와 보안 액세스 키를 사용하여 프로그래밍 방식의 AWS 요청에 암호화 방식으로 서명합니다.

CREDIT_DEBIT_CVV

VISA, MasterCard, Discover 신용 및 직불 카드에 있는 3자리 카드 확인 코드(CVV)입니다. American Express 신용카드 또는 직불카드의 경우 CVV는 4자리 숫자 코드입니다.

CREDIT_DEBIT_EXPIRY

신용카드 또는 직불카드 만료 날짜. 이 숫자는 일반적으로 4자리이며 종종 로 형식이 지정됩니다month/year or MM/YY. Amazon Comprehend는 01/21, 01/2021, 및 Jan 2021과 같은 만료 날짜를 인식합니다.

CREDIT_DEBIT_NUMBER

신용카드 또는 직불카드 번호 이 번호의 길이는 13~16자리까지 다양합니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 신용카드 또는 직불카드 번호를 인식합니다.

DATE_TIME

날짜에는 년, 월, 일, 요일 또는 시각이 포함될 수 있습니다. 예를 들어, Amazon Comprehend는 “2020년 1월 19일” 또는 “오전 11시”를 날짜로 인식합니다. Amazon Comprehend는 일부 날짜, 날짜 범위 및 날짜 간격을 인식합니다. 또한 “1990년대”와 같은 십년 단위를 인식할 것입니다.

DRIVER_ID

개인이 공공 도로에서 한 대 이상의 자동차를 운전할 수 있도록 허가하는 공식 문서인 운전면허증에 부여되는 번호입니다. 운전면허증 번호는 영숫자로 구성됩니다.

EMAIL

이메일 주소(예: marymajor@email.com).

INTERNATIONAL_BANK_ACCOUNT_NUMBER

국제 은행 계좌 번호의 형식은 국가별로 다릅니다. www.iban.com/structure를 참조하세요.

IP_ADDRESS

198.51.100.0과 같은 IPv4 주소입니다.

LICENSE_PLATE

차량 번호판은 차량이 등록된 주 또는 국가에서 발급합니다. 승용차의 형식은 일반적으로 대문자와 숫자로 구성된 5~8자리 숫자입니다. 형식은 발급한 주 또는 국가의 위치에 따라 다릅니다.

MAC_ADDRESS

미디어 액세스 제어(MAC) 주소는 네트워크 인터페이스 컨트롤러()에 할당된 고유 식별자입니다NIC.

NAME

개인의 이름. 이 개체 유형에는 Dr., Mr., Mrs., Miss 등의 호칭은 포함되지 않습니다. Amazon Comprehend는 조직 또는 주소의 일부인 이름에는 이 개체 유형을 적용하지 않습니다. 예를 들어 Amazon Comprehend는 “아무개 조직(John Doe Organization)”을 하나의 조직으로 인정하고 “아무개 도로(Jane Doe Street)”를 주소로 인식합니다.

PASSWORD

비밀번호로 사용되는 영숫자 문자열(예: “*very20special #pass *”).

PHONE

전화번호. 이 엔터티 유형에는 팩스 및 호출기 번호도 포함됩니다.

PIN

은행 계좌에 액세스할 수 있는 4자리 개인 식별 번호(PIN)입니다.

SWIFT_CODE

SWIFT 코드는 특정 은행 또는 브랜치를 지정하는 데 사용되는 은행 식별자 코드(BIC)의 표준 형식입니다. 은행은 이 코드를 국제 전신 송금과 같은 송금에 사용합니다.

SWIFT 코드는 8자 또는 11자로 구성됩니다. 11자리 코드는 특정 브랜치를 나타내는 반면, 8자리 코드(또는 ''로 끝나는 11자리 코드XXX)는 헤드 또는 프라이머리 오피스를 나타냅니다.

URL

웹 주소(예: www.example.com)

USERNAME

계정을 식별하는 사용자 이름(예: 로그인 이름, 화면 이름, 닉네임 또는 핸들).

VEHICLE_IDENTIFICATION_NUMBER

차량 식별 번호(VIN)는 차량을 고유하게 식별합니다. VIN 콘텐츠 및 형식은 ISO 3779 사양에 정의되어 있습니다. 각 국가에는 에 대한 특정 코드와 형식이 있습니다VINs.

국가별 PII 엔터티 유형

여권 번호 및 기타 정부 발급 ID 번호와 같은 일부 PII 엔터티 유형은 국가별입니다. Amazon Comprehend는 다음과 같은 유형의 국가별 PII엔터티를 감지합니다.

CA_HEALTH_NUMBER

캐나다 보건 서비스 번호는 개인이 의료 혜택을 받는 데 필요한 10자리 고유 식별자입니다.

CA_SOCIAL_INSURANCE_NUMBER

캐나다 사회 보험 번호(SIN)는 개인이 정부 프로그램 및 혜택에 액세스하는 데 필요한 9자리 고유 식별자입니다.

는 123-456-789과 같이 세 자리로 구성된 세 그룹으로 형식이 지정SIN됩니다. 는 Luhn 알고리즘 이라는 간단한 체크 디지트 프로세스를 통해 검증할 SIN 수 있습니다.

IN_AADHAAR

인도 아드하르는 인도 정부가 인도 거주자에게 발급하는 12자리 고유 식별 번호입니다. Aadhaar 형식에서는 네 번째와 여덟 번째 자리 뒤에 공백이나 하이픈이 있습니다.

IN_NREGA

인도 농촌 고용 보장법(NREGA) 번호는 2개의 문자와 14개의 숫자로 구성됩니다.

IN_PERMANENT_ACCOUNT_NUMBER

인도 영구 계좌 번호는 소득세 부서에서 발급하는 10자리 고유 영숫자 번호입니다.

IN_VOTER_NUMBER

인도 유권자 신분증은 3개의 문자와 그에 이은 7개의 숫자로 구성됩니다.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

영국 국민 보건 서비스 번호는 10~17자리 숫자로, 예를 들어 485 777 3456입니다. 현재 시스템에서는 세 번째와 여섯 번째 자리 뒤에 공백을 넣어 10자리 숫자 형식을 지정합니다. 마지막 숫자는 오류 감지 체크섬입니다.

17자리 숫자 형식에서는 10자리와 13자리 뒤에 공백이 있습니다.

UK_NATIONAL_INSURANCE_NUMBER

영국 국민 보험 번호(NINO)는 개인에게 국민 보험(사회 보장) 혜택에 대한 액세스 권한을 제공합니다. 또한 영국 조세 시스템에서도 일부 용도로 사용됩니다.

이 번호는 9자리 길이이며 문자 2개로 시작하고 그 뒤에 숫자 6개와 문자 1개가 옵니다. 는 두 글자 뒤에 공백 또는 대시로 형식을 지정할 NINO 수 있으며 두 번째, 두 번째, 여섯 번째 숫자 뒤에 형식을 지정할 수 있습니다.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

영국 고유 납세자 참조(UTR)는 납세자 또는 사업체를 식별하는 10자리 숫자입니다.

BANK_ACCOUNT_NUMBER

일반적으로 10~12자리 길이의 미국 은행 계좌 번호입니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 신용카드 또는 직불카드 번호를 인식합니다.

BANK_ROUTING

미국 은행 계좌 라우팅 번호 일반적으로 길이는 9자리이지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 라우팅 번호를 인식합니다.

PASSPORT_NUMBER

미국 여권 번호 여권 번호의 범위는 6~9자의 영숫자입니다.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

미국 개인 납세자 식별 번호(ITIN)는 “9”로 시작하고 “7” 또는 “8”을 네 번째 자리로 포함하는 9자리 숫자입니다. 는 세 번째 및 네 번째 숫자 뒤에 공백 또는 대시로 형식을 지정할 ITIN 수 있습니다.

SSN

미국 사회보장번호(SSN)는 미국 시민, 영주권자 및 임시 근로 거주자에게 발급되는 9자리 숫자입니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 은행 계좌 번호 번호를 인식합니다.