Creación de un identificador de datos personalizado
Un identificador de datos personalizado es un conjunto de criterios que se definen para detectar datos confidenciales en objetos de Amazon Simple Storage Service (Amazon S3). Cuando crea un identificador de datos personalizado, especifica una expresión regular (regex) que define un patrón de texto para que coincida con un objeto de S3. También puede especificar secuencias de caracteres y una regla de proximidad que refine los resultados. Las secuencias de caracteres pueden ser: palabras clave, que deben estar cerca del texto que coincida con la expresión regular o ignorar palabras, que son palabras o frases para excluirlas de los resultados. Mediante el uso de identificadores de datos personalizados, puede complementar los identificadores de datos administrados que proporciona Amazon Macie y detectar datos confidenciales que reflejen los escenarios particulares, la propiedad intelectual o los datos propios de su organización.
Por ejemplo, muchas empresas tienen una sintaxis específica para las identificaciones de los empleados. Una de estas sintaxis podría ser: una letra mayúscula que indique si un empleado es empleado a tiempo completo (F) o a tiempo parcial (P), seguida de un guion (–) y una secuencia de ocho dígitos que identifica al empleado. Algunos ejemplos son: F–12345678, para un empleado a tiempo completo, y P–87654321, para un empleado a tiempo parcial. Si crea un identificador de datos personalizado para detectar las identificaciones de los empleados que utilizan esta sintaxis, puede utilizar la siguiente expresión regular: [A-Z]-\d{8}
. Para afinar el análisis y evitar los falsos positivos, también podría configurar el identificador para que utilice palabras clave (employee
y employee ID
) y una distancia máxima de coincidencia de 20 caracteres. Con estos criterios, los resultados incluyen texto que coincida con la expresión regular solo si el texto aparece después de la palabra clave employee o employee ID y todo el texto aparece dentro de los 20 caracteres de una de esas palabras clave.
Para ver una demostración de cómo las palabras clave pueden ayudarle a encontrar datos confidenciales y evitar falsos positivos, vea el siguiente vídeo:
Además de los criterios de detección, puede especificar opcionalmente ajustes de gravedad personalizados para los resultados que produzca un identificador de datos personalizado. La gravedad se puede basar en el número de apariciones del texto que coincida con los criterios de detección de un identificador. Si no especifica estos ajustes, Macie asigna automáticamente la gravedad media a todos los resultados que produzca el identificador. La gravedad no cambia en función del número de apariciones del texto que coincida con los criterios de detección del identificador.
Para obtener información detallada sobre estas y otras opciones de configuración, consulte Opciones de configuración para identificadores de datos personalizados.
Para crear un identificador de datos personalizado
Siga estos pasos para crear un identificador de datos personalizado mediante la consola de Amazon Macie. Para crear un identificador de datos personalizado mediante programación, utilice la operación CreateCustomDataIdentifier de la API de Amazon Macie.
Abra la consola de Amazon Macie en https://console.aws.amazon.com/macie/
. -
En el panel de navegación, en Configuración, elija Identificadores de datos personalizados.
-
Seleccione Crear.
-
En Nombre, introduzca un nombre único para el identificador de datos personalizado. El nombre puede contener hasta 128 caracteres.
-
En Descripción, introduzca opcionalmente una breve descripción del identificador de datos personalizado. La descripción puede contener hasta 512 caracteres.
nota
Evite incluir información confidencial en el nombre o la descripción de un identificador de datos personalizado. Es posible que otros usuarios de su cuenta puedan ver el nombre o la descripción, en función de las acciones que puedan llevar a cabo en Macie.
-
En Expresión regular, introduzca la expresión regular (regex) que defina el patrón de texto que debe coincidir. La expresión regular puede contener hasta 512 caracteres.
Macie admite un subconjunto de la sintaxis de patrones proporcionado por la biblioteca de expresiones regulares compatibles con Perl (PCRE)
. Para obtener más información y consejos, consulte Criterios de detección de los identificadores de datos personalizados. -
En el caso de las palabras clave, opcionalmente puede introducir hasta 50 secuencias de caracteres (separadas por comas) para definir un texto específico que debe estar cerca del texto que coincida con el patrón de expresiones regulares.
Macie incluye una aparición en los resultados solo si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de la distancia máxima de coincidencia de una de estas palabras clave. Cada palabra clave puede contener entre 3 y 90 caracteres UTF-8. Las palabras clave no distinguen entre mayúsculas y minúsculas.
-
En Ignorar palabras, opcionalmente puede introducir hasta 10 secuencias de caracteres (separadas por comas) que definan un texto específico para excluirlo de los resultados.
Macie excluye una aparición de los resultados si el texto coincide con el patrón de expresiones regulares pero contiene una de estas palabras para omitir. Cada palabra ignorada puede contener entre 4 y 90 caracteres UTF-8. Las palabras ignoradas distinguen mayúsculas de minúsculas.
-
En Distancia de coincidencia máxima, opcionalmente puede introducir el número máximo de caracteres que puede existir entre el final de una palabra clave y el final del texto que coincide con el patrón de regex.
Macie incluye una aparición en los resultados solo si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de esta distancia de una palabra clave completa. La distancia puede ser de 1 a 300 caracteres. La distancia predeterminada es de 50 caracteres.
-
En Gravedad, elija cómo determinar la gravedad a los resultados de datos confidenciales que produzca el identificador de datos personalizado:
-
Para asignar automáticamente la gravedad media a todos los resultados, seleccione Utilizar una gravedad media para cualquier número de coincidencias (opción predeterminada). Con esta opción, Macie asigna automáticamente la gravedad media a un resultado si el objeto de S3 afectado contiene una o más apariciones de texto que coinciden con los criterios de detección.
-
Para asignar la gravedad en función de los umbrales de aparición que especifique, elija Usar una configuración personalizada para determinar la gravedad. A continuación, utilice las opciones Umbral de incidencias y Nivel de gravedad para especificar el número mínimo de coincidencias que deben existir en un objeto de S3 para obtener un resultado con la gravedad seleccionada.
Puede especificar hasta tres umbrales de incidencia, uno para cada nivel de gravedad que admita Macie: bajo (para los menos graves), medio o alto (para los más graves). Si especifica más de uno, los umbrales deben estar en orden ascendente según la gravedad, pasando de bajo a alto. Si un objeto de S3 contiene menos apariciones que el umbral más bajo especificado, Macie no crea ningún resultado.
-
-
(Opcional) En el caso de las etiquetas, elija Añadir etiqueta y, a continuación, introduzca hasta 50 etiquetas para asignarlas al identificador de datos personalizado.
Una Etiqueta es una etiqueta que se define y se asigna a determinados tipos de recursos de AWS. Cada etiqueta consta de una clave de etiqueta necesaria y un valor de etiqueta opcional. Las etiquetas pueden ayudarle a identificar, clasificar y administrar recursos de distintas formas, como por finalidad, propietario, entorno u otros criterios. Para obtener más información, consulte Etiquetado de recursos de Macie.
-
(Opcional) En Evaluar, introduzca hasta 1000 caracteres en el cuadro de Datos de muestra y, a continuación, elija Probar para probar los criterios de detección. Macie evalúa los datos de la muestra e informa del número de apariciones de texto que coinciden con los criterios. Puede repetir este paso tantas veces como desee para refinar y optimizar los criterios.
nota
Le recomendamos encarecidamente que pruebe y ajuste los criterios de detección antes de guardar el identificador de datos personalizado. Dado que los identificadores de datos personalizados se utilizan en los trabajos de detección de información confidencial, no puede editar un identificador de datos personalizado después de guardarlo. Esto ayuda a garantizar que tiene un historial inmutable de resultados de datos confidenciales y resultados de detección para las auditorías o investigaciones de privacidad y protección de datos que lleve a cabo.
-
Cuando haya terminado, elija Enviar.
Macie comprueba la configuración y verifica que puede compilar la expresión regular. Si hay algún problema con una configuración o con la expresión regular, Macie devolverá un error que describirá el problema. Una vez solucionados los problemas, puede guardar el identificador de datos personalizado. A continuación, puede crear y configurar trabajos de detección de datos confidenciales para usar el identificador o añadir el identificador a su configuración de detección de datos confidenciales automatizada.