Opciones de configuración para identificadores de datos personalizados - Amazon Macie

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Opciones de configuración para identificadores de datos personalizados

Mediante el uso de identificadores de datos personalizados, puede definir criterios personalizados para detectar datos confidenciales en los objetos del Amazon Simple Storage Service (Amazon S3). Puede complementar los identificadores de datos gestionados que proporciona Amazon Macie y detectar datos confidenciales que reflejen los escenarios, la propiedad intelectual o los datos patentados particulares de su organización.

Cada identificador de datos personalizado especifica los criterios de detección y, opcionalmente, la configuración de gravedad de los hallazgos que produzca el identificador. Los criterios de detección especifican una expresión regular que define un patrón de texto que coincide con el de un objeto S3. Los criterios también pueden especificar secuencias de caracteres y una regla de proximidad para refinar los resultados. La configuración de gravedad especifica qué gravedad se debe asignar a los hallazgos. La gravedad se puede basar en el número de apariciones de texto que coincidan con los criterios de detección del identificador.

Criterios de detección

Al crear un identificador de datos personalizado, se especifica una expresión regular (regex) que define un patrón de texto que debe coincidir. También puede especificar secuencias de caracteres, como palabras y frases, y una regla de proximidad que ajuste los resultados. Las secuencias de caracteres pueden ser: palabras clave, que son palabras o frases que deben estar cerca del texto que coincide con la expresión regular, o bien omitir palabras, que son palabras o frases que se deben excluir de los resultados.

Para la expresión regular, Amazon Macie admite un subconjunto de la sintaxis de patrones proporcionada por la biblioteca Perl Compatible Regular Expressions (). PCRE De las construcciones proporcionadas por la PCRE biblioteca, Macie no admite los siguientes elementos de patrón:

  • Referencias inversas

  • Capturar grupos

  • Patrones condicionales

  • Código incrustado

  • Indicadores de patrones globales, como /i, /m y /x

  • Patrones recursivos

  • Afirmaciones positivas y negativas de ancho cero retrospectivas y prospectivas, como ?=, ?!, ?<= y ?<!

La expresión regular puede contener hasta 512 caracteres.

Para crear un patrón de expresiones regulares efectivo para un identificador de datos personalizado, tenga en cuenta los siguientes consejos y recomendaciones:

  • Utilice anclajes (^o$) solo si espera que el patrón aparezca al principio o al final de un archivo, no al principio o al final de una línea.

  • Por motivos de rendimiento, Macie limita el tamaño de los grupos de repeticiones acotadas. Por ejemplo, \d{100,1000} no se compilará en Macie. Para aproximarse a esta funcionalidad, puede utilizar una repetición abierta, como \d{100,}.

  • Para hacer que las partes de un patrón no distingan mayúsculas de minúsculas, puedes usar la (?i) construcción en lugar de la bandera. /i

  • No es necesario optimizar los prefijos o las alternancias manualmente. Por ejemplo, cambiar /hello|hi|hey/ a /h(?:ello|i|ey)/ no mejorará el rendimiento.

  • Por motivos de rendimiento, Macie limita el número de comodines que se repiten. Por ejemplo, a*b*a* no se compilará en Macie.

Para protegerse de expresiones mal formadas o de larga duración, Macie comprueba automáticamente los patrones de expresiones regulares comparándolos con una colección de texto de muestra al crear un identificador de datos personalizado. Si hay algún problema con la expresión regular, Macie devuelve un error que describe el problema.

Además de la expresión regular, si lo desea, puede especificar secuencias de caracteres y una regla de proximidad para refinar los resultados.

Palabras clave

Son secuencias de caracteres que deben estar cerca del texto que coincida con el patrón de expresiones regulares. Los requisitos de proximidad varían según el formato de almacenamiento o el tipo de archivo del objeto S3:

  • Datos estructurados en columnas: Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y hay una palabra clave en el nombre del campo o la columna que almacena el texto, o si el texto va precedido por una palabra clave del mismo campo o valor de celda y dentro de la distancia máxima de coincidencia con ella. Este es el caso de los libros, CSV archivos y TSV archivos de Microsoft Excel.

  • Datos estructurados y basados en registros: Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de la distancia máxima de coincidencia de una palabra clave. La palabra clave puede estar en el nombre de un elemento de la ruta al campo o matriz que almacena el texto, o puede preceder y formar parte del mismo valor en el campo o matriz que almacena el texto. Este es el caso de los contenedores de objetos de Apache Avro, los archivos de Apache Parquet, los archivos y los archivos Lines. JSON JSON

  • Datos no estructurados: Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y el texto va precedido por una palabra clave y dentro de la distancia máxima de coincidencia de la misma. Este es el caso de los archivos de formato de documento portátil de Adobe, los documentos de Microsoft Word, los mensajes de correo electrónico y los archivos de texto no binario que no sean CSVJSON, JSON líneas y TSV archivos. Esto incluye todos los datos estructurados, como las tablas, de estos tipos de archivos.

Puede especificar hasta 50 palabras clave. Cada palabra clave puede contener de 3 a 90 a 8 caracteresUTF. Las palabras clave no distinguen entre mayúsculas y minúsculas.

Distancia máxima de coincidencia

Se trata de una regla de proximidad basada en caracteres para las palabras clave. Macie usa esta configuración para determinar si una palabra clave precede al texto que coincide con el patrón de expresiones regulares. La configuración define el número máximo de caracteres que puede existir entre el final de una palabra clave y el final del texto que coincide con el patrón de expresiones regulares. Macie incluye un resultado si el texto:

  • Coincide con el patrón de expresiones regulares,

  • Se produce después de al menos una palabra clave completa, y

  • Se produce dentro de la distancia especificada de la palabra clave.

De lo contrario, Macie excluirá el texto de los resultados.

Puede especificar una distancia de 1 a 300 caracteres. La distancia por defecto es de 50 caracteres. Para obtener los mejores resultados, esta distancia debe ser mayor que el número mínimo de caracteres de texto que la expresión regular está diseñada para detectar. Si solo una parte del texto está dentro de la distancia máxima de coincidencia de una palabra clave, Macie no la incluye en los resultados.

Ignorar palabras

Son secuencias de caracteres que se excluyen de los resultados. Si el texto coincide con el patrón de regex, pero contiene una palabra ignorada, Macie no la incluye en los resultados.

Puede especificar hasta 10 palabras ignoradas. Cada palabra ignorada puede contener de 4 a 90 a 8 caracteresUTF. Las palabras ignoradas distinguen mayúsculas de minúsculas.

nota

Le recomendamos encarecidamente que pruebe y ajuste sus criterios de detección antes de guardar un identificador de datos personalizado. Dado que los identificadores de datos personalizados se utilizan en los trabajos de detección de información confidencial, no puede editar un identificador de datos personalizado después de guardarlo. Esto ayuda a garantizar que tiene un historial inmutable de resultados de datos confidenciales y resultados de detección para las auditorías o investigaciones de privacidad y protección de datos que lleve a cabo.

Puede probar los criterios de detección mediante la consola Amazon Macie o Amazon Macie. API Para probar los criterios mediante la consola, utilice las opciones de la sección Evaluar mientras crea el identificador de datos personalizado. Para probar los criterios mediante programación, utilice la TestCustomDataIdentifieroperación de Amazon Macie. API

Para ver una demostración de cómo las palabras clave pueden ayudarle a encontrar datos confidenciales y evitar falsos positivos, vea el siguiente vídeo:

Configuración de gravedad de los hallazgos

Al crear un identificador de datos personalizado, también puede especificar una configuración de gravedad personalizada para los hallazgos de datos confidenciales que produzca el identificador. De forma predeterminada, Amazon Macie asigna la gravedad media a todos los hallazgos que produce un identificador de datos personalizado. Si un objeto S3 contiene al menos una aparición de texto que coincide con los criterios de detección, Macie asigna automáticamente la gravedad media al hallazgo resultante.

Con la configuración de gravedad personalizada, se especifica la gravedad que se va a asignar en función del número de apariciones de texto que coincidan con los criterios de detección. Puede definir umbrales de incidencia para hasta tres niveles de gravedad: bajo (menos grave), medio y alto (más grave). Un umbral de ocurrencias es el número mínimo de coincidencias que deben existir en un objeto de S3 para producir un resultado con la gravedad especificada. Si especifica más de un umbral, los umbrales deben estar en orden ascendente según la gravedad, pasando de bajo a alto.

Por ejemplo, en la siguiente imagen se muestran los ajustes de gravedad que especifican tres umbrales de incidencia, uno para cada nivel de gravedad compatible con Macie.

Ajustes de gravedad que especifican los umbrales de incidencia para los niveles de gravedad bajo, medio y alto.

En la siguiente tabla se indica la gravedad de los resultados que produce el identificador de datos personalizado.

Umbral de aparición Nivel de gravedad Resultado
1 Baja Si un objeto de S3 contiene entre 1 y 49 apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es baja.
50 Medio Si un objeto S3 contiene entre 50 y 99 apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es media.
100 Alta Si un objeto S3 contiene 100 o más apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es alta.

También puede usar la configuración de gravedad para especificar si se debe crear o no un resultado. Si un objeto S3 contiene menos ocurrencias que el umbral más bajo, Macie no crea ningún resultado.