사용자 지정 데이터 식별자에 대한 구성 옵션 - Amazon Macie

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 지정 데이터 식별자에 대한 구성 옵션

사용자 지정 데이터 식별자를 사용하여 Amazon Simple Storage Service(Amazon S3) 객체에서 민감한 데이터를 감지하기 위한 사용자 지정 기준을 정의할 수 있습니다. Amazon Macie가 제공하는 관리형 데이터 식별자를 보완하고 조직의 특정 시나리오, 지적 재산 또는 독점 데이터를 반영하는 민감한 데이터를 감지할 수 있습니다.

각 사용자 지정 데이터 식별자는 식별자가 생성하는 결과에 대한 감지 기준 및 선택적으로 심각도 설정을 지정합니다. 감지 기준은 S3 객체에서 일치시킬 텍스트 패턴을 정의하는 정규식을 지정합니다. 또한 이 기준은 결과를 구체화하는 문자 시퀀스와 근접 규칙을 지정할 수 있습니다. 심각도 설정은 결과에 할당할 심각도를 지정합니다. 심각도는 식별자의 감지 기준과 일치하는 텍스트 발생 횟수를 기준으로 할 수 있습니다.

감지 기준

사용자 지정 데이터 식별자를 생성할 때 일치시킬 텍스트 패턴을 정의하는 정규식( 정규식)을 지정합니다. 단어 및 문구와 같은 문자 시퀀스와 결과를 구체화하는 근접 규칙을 지정할 수도 있습니다. 문자 시퀀스는 정규식과 일치하는 텍스트 근처에 있어야 하는 단어 또는 구문인 키워드 또는 결과에서 제외할 단어 또는 구문인 단어를 무시하는 키워드일 수 있습니다.

정규식의 경우 Amazon Macie는 Perl 호환 정규 표현식(PCRE) 라이브러리 에서 제공하는 패턴 구문의 하위 집합을 지원합니다. PCRE 라이브러리에서 제공하는 구성 중 Macie는 다음 패턴 요소를 지원하지 않습니다.

  • 역참조

  • 캡처 그룹

  • 조건 패턴

  • 임베디드 코드

  • 글로벌 패턴 플래그(예: /i, /m/x)

  • 재귀 패턴

  • 포지티브 및 네가티브 후방탐색 및 전방탐색 제로 폭 어설션(예: ?=, ?!, ?<=?<!)

Regex는 최대 512자까지 포함할 수 있습니다.

사용자 지정 데이터 식별자에 대한 효과적인 정규식 패턴을 생성하려면 다음 팁과 권장 사항을 참고하세요.

  • 줄의 시작 또는 끝이 아닌 파일 시작 또는 끝에 패턴이 나타날 것으로 예상되는 경우에만 앵커(^ 또는 $)를 사용합니다.

  • 성능상의 이유로 Macie는 제한된 반복 그룹의 크기를 제한합니다. 예를 들어, Macie에서는 \d{100,1000} 컴파일되지 않습니다. 다음과 같은 서술형 반복을 사용하면 이 함수의 근사치를 계산할 수 있습니다(예: \d{100,}).

  • 패턴의 일부를 대소문자를 구분하지 않도록 하려면 /i 플래그 대신 (?i) 구성 요소를 사용할 수 있습니다.

  • 접두사 또는 변경을 수동으로 최적화할 필요가 없습니다. 예를 들어 /h(?:ello|i|ey)//hello|hi|hey/로 변경해도 성능이 향상되지 않습니다.

  • 성능상의 이유로 Macie는 반복된 와일드카드 수를 제한합니다. 예를 들어, Macie에서는 a*b*a* 컴파일되지 않습니다.

형식이 잘못되었거나 오래 실행되는 표현식으로부터 보호하기 위해 Macie는 사용자 지정 데이터 식별자를 생성할 때 샘플 텍스트 모음에 대해 정규식 패턴을 자동으로 테스트합니다. 정규식에 문제가 있는 경우 Macie는 문제를 설명하는 오류를 반환합니다.

정규식 외에도 선택적으로 문자 시퀀스와 근접 규칙을 지정하여 결과를 구체화할 수 있습니다.

키워드

이는는 정규식 패턴과 일치하는 텍스트와 근접해야 하는 특정 문자 시퀀스입니다. 근접성 요구 사항은 S3 객체의 스토리지 형식 또는 파일 유형에 따라 달라집니다.

  • 구조화된 열 데이터 - 텍스트가 정규식 패턴과 일치하고 키워드가 텍스트를 저장하는 필드 또는 열의 이름에 있거나 텍스트 앞에 텍스트가 오고 동일한 필드 또는 셀 값에 있는 키워드의 최대 일치 거리 내에 있는 경우 Macie에는 결과가 포함됩니다. 이는 Microsoft Excel 통합 문서, CSV 파일 및 TSV 파일의 경우입니다.

  • 구조화된 레코드 기반 데이터 - 텍스트가 정규식 패턴과 일치하고 텍스트가 키워드의 최대 일치 거리 내에 있는 경우 Macie는 결과를 포함합니다. 키워드는 텍스트를 저장하는 필드 또는 배열의 경로에 있는 요소 이름에 포함되거나 텍스트를 저장하는 필드 또는 배열에서 동일한 값의 앞에 올 수도 있고 그 값의 일부일 수도 있습니다. 이는 Apache Avro 객체 컨테이너, Apache Parquet 파일, JSON 파일 및 JSON 라인 파일의 경우입니다.

  • 비정형 데이터 - 텍스트가 정규식 패턴과 일치하고 텍스트 앞에 키워드의 최대 일치 거리가 있는 경우 Macie에 결과가 포함됩니다. 이는 Adobe Portable Document Format 파일, Microsoft Word 문서, 이메일 메시지 및 , CSV, JSON JSON 행 및 파일을 제외한 비이진 텍스트 TSV 파일의 경우입니다. 여기에는 이러한 유형의 파일에 있는 모든 정형 데이터(예: 표)가 포함됩니다.

최대 50개의 키워드를 지정할 수 있습니다. 각 키워드에는 3~90UTF~8자의 문자가 포함될 수 있습니다. 키워드는 대/소문자를 구분하지 않습니다

최대 일치 거리

키워드에 대한 문자 기반 근접성 규칙입니다. Macie는 이 설정을 사용하여 정규식 패턴과 일치하는 텍스트에 대한 키워드가 앞에 있는지 확인합니다. 설정은 전체 키워드의 끝과 정규식 패턴과 일치하는 텍스트의 끝 사이에 존재할 수 있는 최대 문자 수를 정의합니다. Macie는 텍스트가 다음과 같은 경우 결과를 포함합니다.

  • 정규식 패턴과 일치하며,

  • 하나 이상의 전체 키워드 이후에 발생합니다.

  • 키워드의 지정된 거리 내에서 발생합니다.

그렇지 않으면 Macie는 결과에서 텍스트를 제외합니다.

1~300자의 거리를 지정할 수 있습니다. 기본 거리는 50자입니다. 최상의 결과를 얻으려면 이 거리가 정규식이 감지하도록 설계된 텍스트의 최소 문자 수보다 커야 합니다. 텍스트의 일부만 키워드의 최대 일치 거리 내에 있는 경우, Macie는 해당 텍스트를 결과에 포함하지 않습니다.

단어 무시

이는 결과에서 제외할 특정 문자 시퀀스입니다. 텍스트가 정규식 패턴과 일치하지만 단어 무시를 포함하면 Macie는 결과에 이를 포함시키지 않습니다.

최대 10개의 단어 무시를 지정할 수 있습니다. 각 무시 단어에는 4~90UTF~8자의 문자가 포함될 수 있습니다. 단어 무시는 대/소문자를 구분합니다.

참고

사용자 지정 데이터 식별자를 저장하기 전에 감지 기준을 테스트하고 구체화하는 것이 좋습니다. 사용자 지정 데이터 식별자는 민감한 데이터 검색 작업에 사용되므로 사용자 지정 데이터 식별자를 저장한 후에는 편집할 수 없습니다. 이를 통해 수행하는 데이터 프라이버시 및 보호 감사 또는 조사에 대한 민감한 데이터 조사 결과 및 검색 결과에 대한 변경 불가능한 기록이 있는지 확인할 수 있습니다.

Amazon Macie 콘솔 또는 Amazon Macie 를 사용하여 감지 기준을 테스트할 수 있습니다API. 콘솔을 사용하여 기준을 테스트하려면 사용자 지정 데이터 식별자를 생성하는 동안 평가 섹션의 옵션을 사용합니다. 프로그래밍 방식으로 기준을 테스트하려면 Amazon Macie 의 TestCustomDataIdentifier 작업을 사용합니다API.

키워드를 사용하여 민감한 데이터를 찾고 오탐을 방지하는 방법에 대한 데모를 보려면 다음 동영상을 시청하십시오.

조사 결과의 심각도 설정

사용자 지정 데이터 식별자를 생성할 때 식별자가 생성하는 민감한 데이터 결과에 대한 사용자 지정 심각도 설정을 지정할 수도 있습니다. 기본적으로 Amazon Macie는 사용자 지정 데이터 식별자가 생성하는 모든 결과에 중간 심각도를 할당합니다. S3 객체에 감지 기준과 일치하는 텍스트가 하나 이상 포함된 경우 Macie는 결과 결과에 중간 심각도를 자동으로 할당합니다.

사용자 지정 심각도 설정을 사용하면 감지 기준과 일치하는 텍스트 발생 횟수에 따라 할당할 심각도를 지정합니다. 낮음(가장 심각하지 않음), 중간 및 음(가장 심각함)의 세 가지 심각도 수준에 대해 발생 임계값을 정의할 수 있습니다. 발생 임곗값은 지정된 심각도의 조사 결과를 생성하기 위해 S3 객체에 존재해야 하는 최소 일치 항목 수입니다. 임곗값을 두 개 이상 지정하는 경우, 임곗값은 심각도에 따라 오름차순으로 낮음에서 높음으로 이동해야 합니다.

예를 들어 다음 이미지는 Macie가 지원하는 각 심각도 수준에 대해 하나씩 세 가지 발생 임계값을 지정하는 심각도 설정을 보여줍니다.

낮은 심각도, 중간 심각도 및 높은 심각도 수준에 대한 발생 임계값을 지정하는 심각도 설정입니다.

다음 표는 사용자 지정 데이터 식별자가 생성하는 조사 결과의 심각도를 나타냅니다.

발생 임곗값 심각도 수준 Result
1 낮음 S3 객체에 탐지 기준과 일치하는 1~49개의 텍스트가 포함된 경우, 결과적인 조사 결과의 심각도는 낮음입니다.
50 중간 S3 객체에 탐지 기준과 일치하는 텍스트가 50~99개 포함되어 있는 경우, 결과적인 조사 결과의 심각도는 중간입니다.
100 높음 S3 객체에 탐지 기준과 일치하는 텍스트가 100개 이상 포함된 경우, 결과적인 조사 결과의 심각도는 높음입니다.

또한 심각도 설정을 사용하여 조사 결과를 생성할지 여부를 지정할 수 있습니다. S3 객체의 발생 횟수가 최저 발생 임곗값보다 적은 경우, Macie는 조사 결과를 생성하지 않습니다.