기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
PII 개체 감지
Amazon Comprehend를 사용하여 영어 또는 스페인어 텍스트 문서의 PII엔터티를 감지할 수 있습니다. PII 엔터티는 특정 유형의 개인 식별 정보()입니다PII. PII 감지를 사용하여 텍스트에서 PII엔터티를 찾거나 엔터PII티를 수정합니다.
PII 엔터티 찾기
텍스트에서 PII엔터티를 찾으려면 실시간 분석을 사용하여 단일 문서를 빠르게 분석할 수 있습니다. 문서 모음에서 비동기 배치 작업을 시작할 수도 있습니다.
콘솔 또는 를 사용하여 단일 문서의 API 실시간 분석을 수행할 수 있습니다. 입력 텍스트에는 최대 100KB의 UTF-8 인코딩 문자가 포함될 수 있습니다.
예를 들어 다음 입력 텍스트를 제출하여 PII엔터티를 찾을 수 있습니다.
Paulo Santos님, 안녕하세요? 귀하의 신용카드 계좌 1111-0000-1111-0000의 최신 명세서가 123 Any Street, Seattle, WA 98109로 우편 발송되었습니다.
출력물에는 “Paul Santos”라는 NAME
유형, “1111-0000-1111-0000"라는 CREDIT_DEBIT_NUMBER
유형 및 “123 Any Street, Seattle, WA 98109"는 ADDRESS
유형이라는 정보가 포함됩니다.
Amazon Comprehend는 감지된 PII엔터티 목록을 각 엔PII터티에 대해 다음 정보와 함께 반환합니다.
-
감지된 텍스트 범위가 감지된 개체 유형일 확률을 추정하는 점수.
-
PII 엔터티 유형입니다.
-
문서의 PII엔터티 위치로, 엔터티의 시작과 끝에 대한 문자 오프셋으로 지정됩니다.
예를 들어, 앞서 언급한 입력 텍스트는 다음과 같은 응답을 생성합니다.
{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }
PII 엔터티 수정
텍스트의 PII엔터티를 수정하려면 콘솔 또는 를 사용하여 비동기 배치 작업을 API 시작할 수 있습니다. Amazon Comprehend는 각 PII엔터티에 대한 수정 사항이 포함된 입력 텍스트의 사본을 반환합니다.
예를 들어 다음 입력 텍스트를 제출하여 PII엔터티를 수정할 수 있습니다.
Paulo Santos님, 안녕하세요? 귀하의 신용카드 계좌 1111-0000-1111-0000의 최신 명세서가 123 Any Street, Seattle, WA 98109로 우편 발송되었습니다.
출력파일은 다음 텍스트를 포함합니다.
***** ******님, 안녕하세요? 귀하의 신용카드 계좌 *******************의 최신 명세서가 *** *** ******* ******** ** *****로 우편 발송되었습니다.
PII 범용 엔터티 유형
이메일 주소 및 신용카드 번호와 같은 일부 PII 엔터티 유형은 범용입니다(개별 국가에만 해당되지 않음). Amazon Comprehend는 다음과 같은 유형의 범용 PII엔터티를 감지합니다.
- ADDRESS
-
“100 Main Street, Anytown, USA“ 또는 “Suite #12, Building 123”과 같은 물리적 주소입니다. 주소에는 거리, 건물, 위치, 도시, 주, 국가, 카운티, 우편번호, 구역, 타운 등의 정보가 포함될 수 있습니다.
- AGE
-
개인의 연령(수량 및 시간 단위 포함). 예를 들어, Amazon Comprehend는 “저는 40세입니다”라는 문구에서 “40세”를 연령으로 인식합니다.
- AWS_ACCESS_KEY
-
보안 액세스 키와 연결된 고유 식별자입니다. 액세스 키 ID와 보안 액세스 키를 사용하여 프로그래밍 방식의 AWS 요청에 암호화 방식으로 서명합니다.
- AWS_SECRET_KEY
-
액세스 키와 관련된 고유 식별자. 액세스 키 ID와 보안 액세스 키를 사용하여 프로그래밍 방식의 AWS 요청에 암호화 방식으로 서명합니다.
- CREDIT_DEBIT_CVV
-
VISA, MasterCard, Discover 신용 및 직불 카드에 있는 3자리 카드 확인 코드(CVV)입니다. American Express 신용카드 또는 직불카드의 경우 CVV는 4자리 숫자 코드입니다.
- CREDIT_DEBIT_EXPIRY
-
신용카드 또는 직불카드 만료 날짜. 이 숫자는 일반적으로 4자리이며 종종 로 형식이 지정됩니다month/year or MM/YY. Amazon Comprehend는 01/21, 01/2021, 및 Jan 2021과 같은 만료 날짜를 인식합니다.
- CREDIT_DEBIT_NUMBER
-
신용카드 또는 직불카드 번호 이 번호의 길이는 13~16자리까지 다양합니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 신용카드 또는 직불카드 번호를 인식합니다.
- DATE_TIME
-
날짜에는 년, 월, 일, 요일 또는 시각이 포함될 수 있습니다. 예를 들어, Amazon Comprehend는 “2020년 1월 19일” 또는 “오전 11시”를 날짜로 인식합니다. Amazon Comprehend는 일부 날짜, 날짜 범위 및 날짜 간격을 인식합니다. 또한 “1990년대”와 같은 십년 단위를 인식할 것입니다.
- DRIVER_ID
-
개인이 공공 도로에서 한 대 이상의 자동차를 운전할 수 있도록 허가하는 공식 문서인 운전면허증에 부여되는 번호입니다. 운전면허증 번호는 영숫자로 구성됩니다.
-
이메일 주소(예: marymajor@email.com).
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
국제 은행 계좌 번호의 형식은 국가별로 다릅니다. www.iban.com/structure
를 참조하세요. - IP_ADDRESS
-
198.51.100.0과 같은 IPv4 주소입니다.
- LICENSE_PLATE
-
차량 번호판은 차량이 등록된 주 또는 국가에서 발급합니다. 승용차의 형식은 일반적으로 대문자와 숫자로 구성된 5~8자리 숫자입니다. 형식은 발급한 주 또는 국가의 위치에 따라 다릅니다.
- MAC_ADDRESS
-
미디어 액세스 제어(MAC) 주소는 네트워크 인터페이스 컨트롤러()에 할당된 고유 식별자입니다NIC.
- NAME
-
개인의 이름. 이 개체 유형에는 Dr., Mr., Mrs., Miss 등의 호칭은 포함되지 않습니다. Amazon Comprehend는 조직 또는 주소의 일부인 이름에는 이 개체 유형을 적용하지 않습니다. 예를 들어 Amazon Comprehend는 “아무개 조직(John Doe Organization)”을 하나의 조직으로 인정하고 “아무개 도로(Jane Doe Street)”를 주소로 인식합니다.
- PASSWORD
-
비밀번호로 사용되는 영숫자 문자열(예: “*very20special #pass *”).
- PHONE
-
전화번호. 이 엔터티 유형에는 팩스 및 호출기 번호도 포함됩니다.
- PIN
-
은행 계좌에 액세스할 수 있는 4자리 개인 식별 번호(PIN)입니다.
- SWIFT_CODE
-
SWIFT 코드는 특정 은행 또는 브랜치를 지정하는 데 사용되는 은행 식별자 코드(BIC)의 표준 형식입니다. 은행은 이 코드를 국제 전신 송금과 같은 송금에 사용합니다.
SWIFT 코드는 8자 또는 11자로 구성됩니다. 11자리 코드는 특정 브랜치를 나타내는 반면, 8자리 코드(또는 ''로 끝나는 11자리 코드XXX)는 헤드 또는 프라이머리 오피스를 나타냅니다.
- URL
-
웹 주소(예: www.example.com)
- USERNAME
-
계정을 식별하는 사용자 이름(예: 로그인 이름, 화면 이름, 닉네임 또는 핸들).
- VEHICLE_IDENTIFICATION_NUMBER
-
차량 식별 번호(VIN)는 차량을 고유하게 식별합니다. VIN 콘텐츠 및 형식은 ISO 3779 사양에 정의되어 있습니다. 각 국가에는 에 대한 특정 코드와 형식이 있습니다VINs.
국가별 PII 엔터티 유형
여권 번호 및 기타 정부 발급 ID 번호와 같은 일부 PII 엔터티 유형은 국가별입니다. Amazon Comprehend는 다음과 같은 유형의 국가별 PII엔터티를 감지합니다.
- CA_HEALTH_NUMBER
-
캐나다 보건 서비스 번호는 개인이 의료 혜택을 받는 데 필요한 10자리 고유 식별자입니다.
- CA_SOCIAL_INSURANCE_NUMBER
-
캐나다 사회 보험 번호(SIN)는 개인이 정부 프로그램 및 혜택에 액세스하는 데 필요한 9자리 고유 식별자입니다.
는 123-456-789과 같이 세 자리로 구성된 세 그룹으로 형식이 지정SIN됩니다. 는 Luhn 알고리즘
이라는 간단한 체크 디지트 프로세스를 통해 검증할 SIN 수 있습니다. - IN_AADHAAR
-
인도 아드하르는 인도 정부가 인도 거주자에게 발급하는 12자리 고유 식별 번호입니다. Aadhaar 형식에서는 네 번째와 여덟 번째 자리 뒤에 공백이나 하이픈이 있습니다.
- IN_NREGA
-
인도 농촌 고용 보장법(NREGA) 번호는 2개의 문자와 14개의 숫자로 구성됩니다.
- IN_PERMANENT_ACCOUNT_NUMBER
-
인도 영구 계좌 번호는 소득세 부서에서 발급하는 10자리 고유 영숫자 번호입니다.
- IN_VOTER_NUMBER
-
인도 유권자 신분증은 3개의 문자와 그에 이은 7개의 숫자로 구성됩니다.
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
영국 국민 보건 서비스 번호는 10~17자리 숫자로, 예를 들어 485 777 3456입니다. 현재 시스템에서는 세 번째와 여섯 번째 자리 뒤에 공백을 넣어 10자리 숫자 형식을 지정합니다. 마지막 숫자는 오류 감지 체크섬입니다.
17자리 숫자 형식에서는 10자리와 13자리 뒤에 공백이 있습니다.
- UK_NATIONAL_INSURANCE_NUMBER
-
영국 국민 보험 번호(NINO)는 개인에게 국민 보험(사회 보장) 혜택에 대한 액세스 권한을 제공합니다. 또한 영국 조세 시스템에서도 일부 용도로 사용됩니다.
이 번호는 9자리 길이이며 문자 2개로 시작하고 그 뒤에 숫자 6개와 문자 1개가 옵니다. 는 두 글자 뒤에 공백 또는 대시로 형식을 지정할 NINO 수 있으며 두 번째, 두 번째, 여섯 번째 숫자 뒤에 형식을 지정할 수 있습니다.
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
영국 고유 납세자 참조(UTR)는 납세자 또는 사업체를 식별하는 10자리 숫자입니다.
- BANK_ACCOUNT_NUMBER
-
일반적으로 10~12자리 길이의 미국 은행 계좌 번호입니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 신용카드 또는 직불카드 번호를 인식합니다.
- BANK_ROUTING
-
미국 은행 계좌 라우팅 번호 일반적으로 길이는 9자리이지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 라우팅 번호를 인식합니다.
- PASSPORT_NUMBER
-
미국 여권 번호 여권 번호의 범위는 6~9자의 영숫자입니다.
- US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER
-
미국 개인 납세자 식별 번호(ITIN)는 “9”로 시작하고 “7” 또는 “8”을 네 번째 자리로 포함하는 9자리 숫자입니다. 는 세 번째 및 네 번째 숫자 뒤에 공백 또는 대시로 형식을 지정할 ITIN 수 있습니다.
- SSN
-
미국 사회보장번호(SSN)는 미국 시민, 영주권자 및 임시 근로 거주자에게 발급되는 9자리 숫자입니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 은행 계좌 번호 번호를 인식합니다.