Opciones de configuración para identificadores de datos personalizados
Mediante el uso de identificadores de datos personalizados, puede definir criterios personalizados para detectar datos confidenciales en objetos de Amazon Simple Storage Service (Amazon S3). Puede complementar los identificadores de datos administrados que proporciona Amazon Macie y detectar datos confidenciales que reflejen los escenarios particulares, la propiedad intelectual o los datos propios de su organización.
Cada identificador de datos personalizado especifica los criterios de detección y, de forma opcional, la configuración de gravedad de los resultados que genere el identificador. Los criterios de detección especifican una expresión regular que define un patrón de texto para hacerlo coincidir con un objeto de S3. Los criterios también pueden especificar secuencias de caracteres y una regla de proximidad que refina los resultados. La configuración de gravedad especifica qué gravedad se debe asignar a los resultados. La gravedad se puede basar en el número de apariciones del texto que coincida con los criterios de detección de un identificador.
Criterios de detección
Cuando crea un identificador de datos personalizado, especifica una expresión regular (regex) que define un patrón de texto para que coincida. También puede especificar secuencias de caracteres, como palabras y frases, y una regla de proximidad para refinar los resultados. Las secuencias de caracteres pueden ser: palabras clave, que deben estar cerca del texto que coincida con la expresión regular o ignorar palabras, que son palabras o frases para excluirlas de los resultados.
Para la expresión regular, Amazon Macie admite un subconjunto de la sintaxis de patrones de expresiones regulares proporcionado por la biblioteca de expresiones regulares compatibles con Perl (PCRE)
-
Referencias inversas
-
Capturar grupos
-
Patrones condicionales
-
Código incrustado
-
Indicadores de patrones globales, como
/i
,/m
y/x
-
Patrones recursivos
-
Afirmaciones positivas y negativas de ancho cero retrospectivas y prospectivas, como
?=
,?!
,?<=
y?<!
La expresión regular puede contener hasta 512 caracteres.
Para crear un patrón de expresiones regulares efectivo para un identificador de datos personalizado, tenga en cuenta los siguientes consejos y recomendaciones:
-
Utilice anclajes (
^
o$
) solo si espera que el patrón aparezca al principio o al final de un archivo, no al principio o al final de una línea. -
Por motivos de rendimiento, Macie limita el tamaño de los grupos de repeticiones acotadas. Por ejemplo,
\d{100,1000}
no se compilará en Macie. Para aproximarse a esta funcionalidad, puede utilizar una repetición abierta, como\d{100,}
. -
Para hacer que partes de un patrón no distingan mayúsculas de minúsculas, puede usar el constructo
(?i)
en lugar del marcador/i
. -
No es necesario optimizar los prefijos ni las alternancias manualmente. Por ejemplo, cambiar
/hello|hi|hey/
a/h(?:ello|i|ey)/
no mejorará el rendimiento. -
Por motivos de rendimiento, Macie limita el número de comodines que se repiten. Por ejemplo,
a*b*a*
no se compilará en Macie.
Para protegerse de expresiones mal formadas o de larga duración, Macie comprueba automáticamente los patrones de expresiones regulares comparándolos con una colección de textos de muestra al crear un identificador de datos personalizado. Si hay algún problema con la expresión regular, Macie devolverá un error que describirá el problema.
Además de la expresión regular, puede especificar de forma opcional secuencias de caracteres y una regla de proximidad para refinar los resultados.
- Palabras clave
-
Son secuencias de caracteres que deben estar cerca del texto que coincida con el patrón de expresiones regulares. Los requisitos de proximidad varían según el formato de almacenamiento o el tipo de archivo del objeto de S3:
-
Datos estructurados y en columnas: Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y hay una palabra clave en el nombre del campo o la columna que almacena el texto, o si el texto va precedido por una palabra clave del mismo valor de campo o celda y se encuentra dentro de la distancia máxima de coincidencia de dicha palabra clave. Esto es así para los libros de trabajo de Microsoft Excel, los archivos CSV y los archivos TSV.
-
Datos estructurados y basados en registros: Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de la distancia máxima de coincidencia de una palabra clave. La palabra clave puede estar en el nombre de un elemento de la ruta al campo o matriz que almacena el texto, o puede preceder y formar parte del mismo valor en el campo o matriz que almacena el texto. Esto es así para los contenedores de objetos de Apache Avro, los archivos de Apache Parquet, los archivos JSON y los archivos JSON Lines.
-
Datos no estructurados: Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y va precedido por una palabra clave dentro de la distancia máxima de coincidencia de la misma. Esto es así para los archivos en formato de documento portátil de Adobe, los documentos de Microsoft Word, los mensajes de correo electrónico y los archivos de texto no binarios distintos de los archivos CSV, JSON, JSON Lines y TSV. Esto incluye todos los datos estructurados, como las tablas, en estos tipos de archivos.
Puede especificar hasta 50 palabras clave. Cada palabra clave puede contener entre 3 y 90 caracteres UTF-8. Las palabras clave no distinguen entre mayúsculas y minúsculas.
-
- Distancia máxima de coincidencia
-
Se trata de una regla de proximidad basada en caracteres para las palabras clave. Macie usa esta configuración para determinar si una palabra clave precede al texto que coincide con el patrón de expresiones regulares. La configuración define el número máximo de caracteres que pueden existir entre el final de una palabra clave y el final del texto que coincide con el patrón de expresiones regulares. Macie incluye un resultado si el texto:
-
coincide con el patrón de expresiones regulares;
-
aparece después de al menos una palabra clave completa; y
-
aparece dentro de la distancia especificada respecto a la palabra clave.
De lo contrario, Macie excluye el texto de los resultados.
Puede especificar una distancia de 1 a 300 caracteres. La distancia por defecto es de 50 caracteres. Para obtener los mejores resultados, esta distancia debe ser mayor que el número mínimo de caracteres de texto que la expresión regular está diseñada para detectar. Si solo una parte del texto está dentro de la distancia máxima de coincidencia de una palabra clave, Macie no la incluye en los resultados.
-
- Ignorar palabras
-
Son secuencias de caracteres que se excluyen de los resultados. Si el texto coincide con el patrón de regex, pero contiene una palabra ignorada, Macie no la incluye en los resultados.
Puede especificar hasta 10 palabras ignoradas. Cada palabra ignorada puede contener entre 4 y 90 caracteres UTF-8. Las palabras ignoradas distinguen mayúsculas de minúsculas.
nota
Le recomendamos encarecidamente que pruebe y ajuste los criterios de detección antes de guardar un identificador de datos personalizado. Dado que los identificadores de datos personalizados se utilizan en los trabajos de detección de información confidencial, no puede editar un identificador de datos personalizado después de guardarlo. Esto ayuda a garantizar que tiene un historial inmutable de resultados de datos confidenciales y resultados de detección para las auditorías o investigaciones de privacidad y protección de datos que lleve a cabo.
Puede probar los criterios de detección mediante la consola de Amazon Macie o la API de Amazon Macie. Para probar los criterios mediante la consola, utilice las opciones de la sección Evaluar mientras crea el identificador de datos personalizado. Para probar los criterios mediante programación, utilice la operación TestCustomDataIdentifier de la API de Amazon Macie.
Para ver una demostración de cómo las palabras clave pueden ayudarle a encontrar datos confidenciales y evitar falsos positivos, vea el siguiente vídeo:
Ajustes de gravedad de los resultados
Al crear un identificador de datos personalizado, también puede especificar una configuración de gravedad personalizada para los datos confidenciales que produzca el identificador. De forma predeterminada, Amazon Macie asigna la gravedad media a todos los resultados que produzca un identificador de datos personalizado. Si un objeto de S3 contiene al menos una aparición de un texto que coincida con los criterios de detección, Macie asigna automáticamente la gravedad media al resultado.
Con la configuración de gravedad personalizada, se especifica qué gravedad desea asignar en función del número de apariciones de texto que coincidan con los criterios de detección. Puede definir umbrales de incidencias para hasta tres niveles de gravedad: bajo (menos grave), medio y alto (más grave). Un umbral de incidencias es el número mínimo de coincidencias que deben existir en un objeto de S3 para producir un resultado con la gravedad especificada. Si especifica más de un umbral, los umbrales deben estar en orden ascendente según la gravedad, pasando de bajo a alto.
Por ejemplo, la imagen siguiente muestra una configuración de gravedad que especifica tres umbrales de incidencias, uno para cada nivel de gravedad compatible con Macie.
En la siguiente tabla se indica la gravedad de los resultados que produce el identificador de datos personalizado.
Umbral de aparición | Nivel de gravedad | Resultado |
---|---|---|
1 | Bajo | Si un objeto de S3 contiene entre 1 y 49 apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es baja. |
50 | Medio | Si un objeto de S3 contiene entre 50 y 99 apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es media. |
100 | Alto | Si un objeto de S3 contiene 100 o más apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es alta. |
También puede usar la configuración de gravedad para especificar si se debe crear o no un resultado. Si un objeto de S3 contiene menos ocurrencias que el umbral más bajo, Macie no crea ningún resultado.