PII 탐지 변환은 데이터 원본에서 개인 식별 정보(PII)를 식별합니다. 식별할 PII 엔터티, 데이터를 스캔하는 방법, PII 탐지 변환에서 식별된 PII 엔터티로 수행할 작업을 선택합니다.
PII 탐지 변환은 사용자가 정의하거나 AWS에서 사전 정의한 엔터티를 탐지, 마스크 또는 제거하는 기능을 제공합니다. 이를 통해 규정 준수 수준을 높이고 책임 부담을 줄일 수 있습니다. 예를 들어, 읽을 수 있는 데이터에 개인 식별 정보가 포함되지 않도록 하고 xxx-xx-xxxx와 같은 고정 문자열 형식의 사회보장번호, 전화번호 또는 주소를 마스킹하고 싶을 수 있습니다.
AWS Glue Studio 외부에서 민감한 데이터를 처리하려면 AWS Glue Studio 외부에서 민감한 데이터 감지 사용를 참조하십시오
데이터를 스캔하는 방법 선택
개인 식별 정보(PII)와 같은 민감한 데이터가 있는지 데이터 세트를 스캔할 때 각 행에서 PII를 탐지할지 아니면 PII 데이터가 포함된 열을 검색할지 선택할 수 있습니다.

각 셀에서 PII 탐지(Detect PII in each cell)를 선택할 경우 데이터 원본의 모든 행을 스캔하도록 선택하는 것입니다. PII 엔터티를 식별하기 위한 포괄적인 스캔입니다.
PII가 포함된 필드 탐지(Detect fields containing PII)를 선택할 경우 행 샘플에서 PII 엔터티를 스캔하도록 선택하는 것입니다. PII 엔터티가 있는 필드도 식별하면서 비용과 리소스를 낮게 유지하는 방법입니다.
PII가 포함된 필드를 탐지하도록 선택할 경우 행의 일부를 샘플링하여 비용을 절감하고 성능을 향상시킬 수 있습니다. 이 옵션을 선택하면 다음과 같은 추가 옵션을 지정할 수 있습니다.
-
부분 샘플링(Sample portion): 샘플링할 행의 백분율을 지정할 수 있습니다. 예를 들어 '50'을 입력할 경우 50%의 행에서 PII 엔터티를 스캔하도록 지정하는 것입니다.
-
탐지 임곗값(Detection threshold): 전체 열이 PII 엔터티를 포함하는 것으로 식별되기 위해 PII 엔터티를 포함해야 하는 행의 백분율을 지정할 수 있습니다. 예를 들어 '10'을 입력할 경우 필드가 PII 엔터티(미국 전화)를 포함하는 것으로 식별되려면 스캔된 행의 PII 엔터티(미국 전화) 수가 10% 이상이어야 한다고 지정하는 것입니다. PII 엔터티를 포함하는 행의 백분율이 10% 미만일 경우 해당 필드는 PII 엔터티(미국 전화)를 포함하는 것으로 레이블이 지정되지 않습니다.
탐지할 PII 엔터티 선택
각 셀에서 PII 탐지(Detect PII in each cell)를 선택한 경우 다음 세 옵션 중 하나를 선택할 수 있습니다.
-
사용 가능한 모든 PII 패턴 - 여기에는 AWS 엔터티가 포함됩니다.
-
카테고리 선택 - 범주를 선택하면 PII 패턴이 선택한 범주의 패턴을 자동으로 포함합니다.
-
특정 패턴 선택(Select specific patterns) - 선택한 패턴만 탐지됩니다.
민감한 관리형 데이터 형식의 전체 목록은 관리형 데이터 형식을 참조하세요.
사용 가능한 모든 PII 패턴 중에서 선택
사용 가능한 모든 PII 패턴(All available PII patterns)을 선택한 경우 AWS에서 사전 정의한 엔터티를 선택합니다. 엔터티를 하나 이상 또는 모두 선택할 수 있습니다.

카테고리 선택
탐지할 PII 패턴으로 카테고리 선택(Select categories)을 선택한 경우 드롭다운 메뉴의 옵션에서 선택할 수 있습니다. 일부 엔터티는 둘 이상의 카테고리에 속할 수 있습니다. 예를 들어, 사람 이름(Person's name)은 일반(Universal) 및 HIPAA 카테고리에 속하는 엔터티입니다.
-
일반(예: 이메일, 신용카드)
-
HIPAA(예: 미국 운전 면허증, HCPCS(Healthcare Common Procedure Coding System) 코드)
-
네트워킹(예: IP 주소, MAC 주소)
아르헨티나
호주
오스트리아
벨기에
보스니아
불가리아
캐나다
칠레
콜롬비아
크로아티아
사이프러스
체코
덴마크
에스토니아
핀란드
프랑스
독일
그리스
헝가리
아일랜드
한국
일본
멕시코
네덜란드
뉴질랜드
노르웨이
포르투갈
루마니아
싱가포르
슬로바키아
슬로베니아
스페인
스웨덴
스위스
터키
우크라이나
미국
영국
베네수엘라
특정 패턴 선택
탐지할 PII 패턴으로 특정 패턴 선택(Select specific patterns)을 선택한 경우 이미 만든 패턴 목록에서 검색하거나 찾아볼 수 있으며, 새 탐지 엔터티 패턴을 만들 수도 있습니다.
아래 단계에서는 민감한 데이터를 감지하기 위한 새로운 사용자 정의 패턴을 생성하는 방법을 설명합니다. 사용자 지정 패턴의 이름을 입력하여 사용자 지정 패턴을 생성하고 정규식을 추가하고 선택 사항으로 컨텍스트 단어를 정의합니다.
-
새 패턴을 생성하려면 새로 생성(Create new) 버튼을 클릭합니다.
-
탐지 엔터티 생성 페이지에서 엔터티 이름과 정규 표현식을 입력합니다. 정규 표현식(Regex)은 AWS Glue가 엔터티를 일치시키는 데 사용됩니다.
-
검증(Validate)을 클릭합니다. 검증에 성공하면 문자열이 유효한 정규 표현식이라는 확인 메시지가 표시됩니다. 검증에 실패하면 문자열이 적절한 형식 및 허용된 문자 리터럴, 연산자 또는 구조를 준수하지 않는다는 메시지가 표시됩니다.
-
정규 표현식 외에 컨텍스트 단어를 추가하도록 선택할 수 있습니다. 컨텍스트 단어는 일치 가능성을 높일 수 있습니다. 필드 이름이 엔터티를 설명하지 않는 경우에 유용할 수 있습니다. 예를 들어, 사회보장번호의 이름은 'SSN' 또는 'SS'일 수 있습니다. 이러한 컨텍스트 단어를 추가하면 엔터티를 일치시키는 데 도움이 될 수 있습니다.
-
생성(Create)을 클릭하여 탐지 엔터티를 생성합니다. 생성된 모든 엔터티는 AWS Glue Studio 콘솔에 표시됩니다. 왼쪽 탐색 메뉴에서 탐지 엔터티(Detection entities)를 클릭합니다.
탐지 엔터티(Detection entities) 페이지에서 탐지 엔터티를 편집, 삭제 또는 생성할 수 있습니다. 검색 필드를 사용하여 패턴을 검색할 수도 있습니다.
탐지 민감도 수준 지정
민감한 데이터 탐지를 사용할 때 민감도 수준을 설정할 수 있습니다.
-
높음 - (기본값) 더 높은 수준의 민감도가 필요한 사용 사례에서 더 많은 개체를 탐지합니다. 2023년 11월 이후에 생성된 모든 AWS Glue 작업에는 이 설정이 자동으로 적용됩니다.
-
낮음 - 탐지되는 개체 수를 줄이고 오탐을 줄입니다.

식별된 PII 데이터로 수행할 작업 선택
전체 데이터 소스에서 PII를 탐지하도록 선택한 경우 적용할 글로벌 옵션을 선택할 수 있습니다.
-
탐지 결과로 데이터 보강(Enrich data with detection results): 각 셀에서 PII 탐지(Detect PII in each cell)를 선택한 경우 탐지된 엔터티를 새 열에 저장할 수 있습니다.
-
탐지된 텍스트 교정(Redact detected text): 탐지된 PII 값을 선택적 바꾸기(Replacing) 텍스트 입력 필드에 지정한 문자열로 바꿀 수 있습니다. 문자열을 지정하지 않으면 탐지된 PII 엔터티가 '*******'로 바뀝니다.
-
탐지된 텍스트 부분 교정: 탐지된 PII 값을 지정한 문자열로 바꿀 수 있습니다. 두 가지 옵션이 있습니다. 끝을 마스킹하지 않은 상태로 두거나 명시적인 정규식 패턴을 제공하여 마스킹하는 것입니다. 이 기능은 AWS Glue 2.0에서는 아직 사용할 수 없습니다.
-
Apply cryptographic hash(암호화 해시 적용): 탐지된 PII 값을 SHA-256 암호화 해시 함수에 전달하고 이 값을 함수의 출력으로 바꿀 수 있습니다.

AWS Glue 버전 2.0과 3.0 이상의 차이점
AWS Glue 2.0 작업은 보조 열의 각 열에 대해 탐지된 PII 정보가 포함된 새 DataFrame을 반환합니다. 모든 수정 또는 해시 작업은 비주얼 탭의 AWS Glue 스크립트에서 볼 수 있습니다.
AWS Glue 3.0 및 4.0 작업은 동일한 추가 열이 포함된 새 DataFrame을 반환합니다. “actionUsed”의 새 키가 존재하며, 이 키는 DETECT
, REDACT
, PARTIAL_REDACT
, SHA256_HASH
중 하나가 될 수 있습니다. 마스킹 동작을 선택하면 DataFrame은 민감한 데이터가 마스킹된 데이터를 반환합니다.
세분화된 작업 오버라이드 추가
세부 조치 재정의 테이블에 탐지 및 조치 설정을 추가할 수 있습니다. 다음 작업을 수행할 수 있습니다.
-
특정 열을 탐지에서 포함 또는 제외 - 데이터 소스에서 추론된 스키마가 테이블을 사용 가능한 열로 채웁니다.
-
글로벌 액션을 사용하는 것보다 더 세밀한 특정 설정을 지정 - 예를 들어 엔터티 유형별로 다른 수정 텍스트 설정을 지정할 수 있습니다.
-
글로벌 액션과 다른 액션 지정 - 다른 민감한 데이터 유형에 다른 액션을 적용하려는 경우 여기에서 수행할 수 있습니다. 동일한 열에 두 가지 다른 내부 편집 작업(수정 및 해싱)을 사용할 수는 없지만 감지는 항상 사용할 수 있습니다.
