Creación de un identificador de datos personalizado - Amazon Macie

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un identificador de datos personalizado

Un identificador de datos personalizado es un conjunto de criterios que se definen para detectar datos confidenciales en objetos de Amazon Simple Storage Service (Amazon S3). Cuando crea un identificador de datos personalizado, especifica una expresión regular (regex) que define un patrón de texto para que coincida con un objeto de S3. También puede especificar secuencias de caracteres y una regla de proximidad que refine los resultados. Las secuencias de caracteres pueden ser: palabras clave, que deben estar cerca del texto que coincida con la expresión regular o ignorar palabras, que son palabras o frases para excluirlas de los resultados. Mediante el uso de identificadores de datos personalizados, puede complementar los identificadores de datos administrados que proporciona Amazon Macie y detectar datos confidenciales que reflejen los escenarios particulares, la propiedad intelectual o los datos propios de su organización.

Por ejemplo, muchas empresas tienen una sintaxis específica para el empleado IDs. Una de estas sintaxis podría ser: una letra mayúscula que indique si un empleado es empleado a tiempo completo (F) o a tiempo parcial (P), seguida de un guion (–) y una secuencia de ocho dígitos que identifica al empleado. Algunos ejemplos son: F—12345678 para un empleado a tiempo completo y P—87654321 para un empleado a tiempo parcial. Para detectar a los empleados IDs que utilizan esta sintaxis, puede crear un identificador de datos personalizado que especifique la siguiente expresión regular:. [A-Z]-\d{8} Para afinar el análisis y evitar los falsos positivos, también podría configurar el identificador para que utilice palabras clave (employee y employee ID) y una distancia máxima de coincidencia de 20 caracteres. Con estos criterios, los resultados incluyen texto que coincide con la expresión regular si el texto aparece después de la palabra clave empleado o empleado y todo el texto aparece dentro de los 20 caracteres de una de esas palabras clave.

Para ver una demostración de cómo las palabras clave pueden ayudarle a encontrar datos confidenciales y evitar falsos positivos, vea el siguiente vídeo:

Además de los criterios de detección, puede especificar opcionalmente ajustes de gravedad personalizados para los resultados que produzca un identificador de datos personalizado. La gravedad se puede basar en el número de apariciones del texto que coincida con los criterios de detección de un identificador. Si no especifica estos ajustes, Macie asigna automáticamente la gravedad media a todos los resultados que produzca el identificador. La gravedad no cambia en función del número de apariciones del texto que coincida con los criterios de detección del identificador.

Para obtener información detallada sobre estas y otras opciones de configuración, consulte Opciones de configuración para identificadores de datos personalizados.

Para crear un identificador de datos personalizado

Puede crear un identificador de datos personalizado mediante la consola de Amazon Macie o la API de Amazon Macie.

Console

Siga estos pasos para crear un identificador de datos personalizado mediante la consola de Amazon Macie.

Para crear un identificador de datos personalizado
  1. Abra la consola Amazon Macie en. https://console.aws.amazon.com/macie/

  2. En el panel de navegación, en Configuración, elija Identificadores de datos personalizados.

  3. Seleccione Crear.

  4. En Nombre, introduzca un nombre único para el identificador de datos personalizado. El nombre puede contener hasta 128 caracteres.

  5. En Descripción, introduzca opcionalmente una breve descripción del identificador de datos personalizado. La descripción puede contener hasta 512 caracteres.

    nota

    Evite incluir datos confidenciales en el nombre o la descripción de un identificador de datos personalizado. Es posible que otros usuarios de tu cuenta puedan acceder al nombre o a la descripción, en función de las acciones que estén autorizados a realizar en Macie.

  6. En Expresión regular, introduzca la expresión regular (regex) que defina el patrón de texto que debe coincidir. La expresión regular puede contener hasta 512 caracteres.

    Macie admite un subconjunto de la sintaxis de patrones proporcionado por la biblioteca de expresiones regulares compatibles con Perl (PCRE). Para obtener más información y consejos, consulte Criterios de detección de los identificadores de datos personalizados.

  7. En el caso de las palabras clave, opcionalmente puede introducir hasta 50 secuencias de caracteres (separadas por comas) para definir un texto específico que debe estar cerca del texto que coincida con el patrón de expresiones regulares.

    Macie incluye una aparición en los resultados solo si el texto coincide con el patrón de expresiones regulares y si el texto se encuentra dentro de la distancia máxima de coincidencia de una de estas palabras clave. Cada palabra clave puede contener entre 3 y 90 caracteres UTF-8. Las palabras clave no distinguen entre mayúsculas y minúsculas.

  8. En Ignorar palabras, si lo desea, introduzca hasta 10 secuencias de caracteres (separadas por comas) que definan un texto específico para excluirlo de los resultados.

    Macie excluye una aparición de los resultados si el texto coincide con el patrón de expresiones regulares pero contiene una de estas palabras para omitir. Cada palabra ignorada puede contener entre 4 y 90 caracteres UTF-8. Las palabras ignoradas distinguen mayúsculas de minúsculas.

  9. En Distancia de coincidencia máxima, opcionalmente puede introducir el número máximo de caracteres que puede existir entre el final de una palabra clave y el final del texto que coincide con el patrón de regex.

    Macie incluye una aparición en los resultados solo si el texto coincide con el patrón de expresiones regulares y si el texto se encuentra a esta distancia de una palabra clave completa. La distancia puede ser de 1 a 300 caracteres. La distancia predeterminada es de 50 caracteres.

  10. En Gravedad, elija cómo determinar la gravedad a los resultados de datos confidenciales que produzca el identificador de datos personalizado:

    • Para asignar automáticamente la gravedad media a todos los resultados, seleccione Utilizar una gravedad media para cualquier número de coincidencias (opción predeterminada). Con esta opción, Macie asigna automáticamente la gravedad media a un resultado si el objeto de S3 afectado contiene una o más apariciones de texto que coinciden con los criterios de detección.

    • Para asignar la gravedad en función de los umbrales de aparición que especifique, elija Usar una configuración personalizada para determinar la gravedad. A continuación, utilice las opciones Umbral de incidencias y Nivel de gravedad para especificar el número mínimo de coincidencias que deben existir en un objeto de S3 para obtener un resultado con la gravedad seleccionada.

      Puede especificar hasta tres umbrales de incidencia, uno para cada nivel de gravedad que admita Macie: bajo (para los menos graves), medio o alto (para los más graves). Si especifica más de uno, los umbrales deben estar en orden ascendente según la gravedad, pasando de bajo a alto. Si un objeto S3 contiene menos apariciones que el umbral más bajo, Macie no crea ningún hallazgo.

  11. (Opcional) En el caso de las etiquetas, elija Añadir etiqueta y, a continuación, introduzca hasta 50 etiquetas para asignarlas al identificador de datos personalizado.

    Una etiqueta es una etiqueta que se define y se asigna a determinados tipos de AWS recursos. Cada etiqueta consta de una clave de etiqueta necesaria y un valor de etiqueta opcional. Las etiquetas pueden ayudarle a identificar, clasificar y administrar recursos de distintas formas, como por finalidad, propietario, entorno u otros criterios. Para obtener más información, consulte Etiquetado de recursos de Macie.

  12. (Opcional) En Evaluar, introduzca hasta 1000 caracteres en el cuadro de Datos de muestra y, a continuación, elija Probar para probar los criterios de detección. Macie evalúa los datos de la muestra e informa del número de apariciones de texto que coinciden con los criterios. Puede repetir este paso tantas veces como desee para refinar y optimizar los criterios.

    nota

    Le recomendamos encarecidamente que pruebe y perfeccione los criterios de detección con datos de muestra. Dado que los identificadores de datos personalizados se utilizan en los trabajos de descubrimiento de datos confidenciales, no puede cambiar un identificador de datos personalizado después de crearlo. Esto ayuda a garantizar un historial inmutable de hallazgos de datos confidenciales y resultados de descubrimiento.

  13. Cuando haya terminado, elija Enviar.

Macie comprueba la configuración y verifica que puede compilar la expresión regular. Si hay algún problema con una configuración o con la expresión regular, Macie devolverá un error que describirá el problema. Una vez solucionados los problemas, puede guardar el identificador de datos personalizado.

API

Para crear un identificador de datos personalizado mediante programación, utilice la CreateCustomDataIdentifieroperación de la API Amazon Macie. O bien, si está utilizando AWS Command Line Interface (AWS CLI), ejecute el comando. create-custom-data-identifier

nota

Antes de crear un identificador de datos personalizado, le recomendamos encarecidamente que pruebe y ajuste sus criterios de detección con datos de muestra. Dado que los identificadores de datos personalizados se utilizan en los trabajos de descubrimiento de datos confidenciales, no puede cambiar un identificador de datos personalizado después de crearlo. Esto ayuda a garantizar un historial inmutable de hallazgos de datos confidenciales y resultados de descubrimiento.

Para probar los criterios mediante programación, puede utilizar el TestCustomDataIdentifierfuncionamiento de la API Amazon Macie. Esta operación proporciona un entorno para evaluar los datos de las muestras con los criterios de detección. Si utiliza el AWS CLI, puede ejecutar el test-custom-data-identifiercomando para probar los criterios.

Cuando esté listo para crear el identificador de datos personalizado, utilice los siguientes parámetros para definir sus criterios de detección:

  • regex— Especifique la expresión regular (regex) que define el patrón de texto que debe coincidir. La expresión regular puede contener hasta 512 caracteres.

    Macie admite un subconjunto de la sintaxis de patrones proporcionado por la biblioteca de expresiones regulares compatibles con Perl (PCRE). Para obtener más información y consejos, consulte Criterios de detección de los identificadores de datos personalizados.

  • keywords— Si lo desea, especifique de 1 a 50 secuencias de caracteres (palabras clave) que deben estar cerca del texto que coincida con el patrón de expresiones regulares.

    Macie incluye una aparición en los resultados solo si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de la distancia máxima de coincidencia de una de estas palabras clave. Cada palabra clave puede contener entre 3 y 90 caracteres UTF-8. Las palabras clave no distinguen entre mayúsculas y minúsculas.

  • maximumMatchDistance— Si lo desea, especifique el número máximo de caracteres que pueden existir entre el final de una palabra clave y el final del texto que coincida con el patrón de expresiones regulares. Si utiliza el AWS CLI, utilice el maximum-match-distance parámetro para especificar este valor.

    Macie incluye una aparición en los resultados solo si el texto coincide con el patrón de expresiones regulares y si el texto se encuentra dentro de esta distancia de una palabra clave completa. La distancia puede ser de 1 a 300 caracteres. La distancia predeterminada es de 50 caracteres.

  • ignoreWords— Si lo desea, especifique de 1 a 10 secuencias de caracteres (ignore las palabras) para excluirlas de los resultados. Si utiliza el AWS CLI, utilice el ignore-words parámetro para especificar estas secuencias de caracteres.

    Macie excluye una aparición de los resultados si el texto coincide con el patrón de expresiones regulares pero contiene una de estas palabras para ignorar. Cada palabra ignorada puede contener entre 4 y 90 caracteres UTF-8. Las palabras ignoradas distinguen mayúsculas de minúsculas.

Para especificar la gravedad de los hallazgos de datos confidenciales que produce el identificador de datos personalizado, utilice el severityLevels parámetro o, si está utilizando el, el AWS CLI parámetro: severity-levels

  • Para asignar automáticamente la MEDIUM gravedad a todos los hallazgos, omita este parámetro. A continuación, Macie utiliza la configuración por defecto. De forma predeterminada, Macie asigna la MEDIUM gravedad a un hallazgo si el objeto S3 afectado contiene una o más apariciones de texto que coinciden con los criterios de detección.

  • Para asignar la gravedad en función de los umbrales de aparición que especifique, especifique el número mínimo de coincidencias que deben existir en un objeto de S3 para obtener un hallazgo con una gravedad específica.

    Puede especificar hasta tres umbrales de incidencia, uno para cada nivel de gravedad que admita Macie: LOW (menos grave) o HIGH (más grave). MEDIUM Si especifica más de uno, los umbrales deben estar en orden ascendente por gravedad, pasando de a. LOW HIGH Si un objeto S3 contiene menos apariciones que el umbral más bajo, Macie no crea ningún hallazgo.

Utilice parámetros adicionales para especificar un nombre y otros ajustes, como etiquetas, para el identificador de datos personalizado. Evite incluir datos confidenciales en estos ajustes. Es posible que otros usuarios de tu cuenta puedan acceder a estos valores, en función de las acciones que estén autorizados a realizar en Macie.

Al enviar la solicitud, Macie comprueba la configuración y comprueba que puede compilar la expresión regular. Si hay algún problema con una configuración o con la expresión regular, la solicitud falla y Macie devuelve un mensaje que describe el problema. Si la solicitud se realiza correctamente, recibirá un resultado similar al siguiente:

{ "customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example" }

Donde customDataIdentifierId especifica el identificador único (ID) del identificador de datos personalizado que se creó.

Para recuperar y revisar posteriormente la configuración del identificador de datos personalizado, utilice la GetCustomDataIdentifieroperación o, si está utilizando la AWS CLI, ejecute el get-custom-data-identifiercomando. Para el id parámetro, especifique el ID del identificador de datos personalizado.

Los siguientes ejemplos muestran cómo utilizar el AWS CLI para crear un identificador de datos personalizado. En los ejemplos se crea un identificador de datos personalizado diseñado para detectar a los empleados IDs que utilizan una sintaxis específica y se encuentran cerca de una palabra clave específica. Los ejemplos también definen una configuración de gravedad personalizada para los hallazgos que produce el identificador.

Este ejemplo está formateado para Linux, macOS o Unix y utiliza el carácter de barra invertida (\) de continuación de línea para mejorar la legibilidad.

$ aws macie2 create-custom-data-identifier \ --name "EmployeeIDs" \ --regex "[A-Z]-\d{8}" \ --keywords '["employee","employee ID"]' \ --maximum-match-distance 20 \ --severity-levels '[{"occurrencesThreshold":1,"severity":"LOW"},{"occurrencesThreshold":50,"severity":"MEDIUM"},{"occurrencesThreshold":100,"severity":"HIGH"}]' \ --description "Detects employee IDs in proximity of a keyword." \ --tags '{"Stack":"Production"}'

Este ejemplo está formateado para Microsoft Windows y utiliza el carácter de continuación de línea de intercalación (^) para mejorar la legibilidad.

C:\> aws macie2 create-custom-data-identifier ^ --name "EmployeeIDs" ^ --regex "[A-Z]-\d{8}" ^ --keywords "[\"employee\",\"employee ID\"]" ^ --maximum-match-distance 20 ^ --severity-levels "[{\"occurrencesThreshold\":1,\"severity\":\"LOW\"},{\"occurrencesThreshold\":50,\"severity\":\"MEDIUM\"},{\"occurrencesThreshold\":100,\"severity\":\"HIGH\"}]" ^ --description "Detects employee IDs in proximity of a keyword." ^ --tags={\"Stack\":\"Production\"}

Donde:

  • EmployeeIDses el nombre del identificador de datos personalizado.

  • [A-Z]-\d{8}es la expresión regular con la que debe coincidir el patrón de texto.

  • employeey employee ID son palabras clave que deben estar cerca del texto que coincida con el patrón de expresiones regulares.

  • 20es el número máximo de caracteres que pueden existir entre el final de una palabra clave y el final del texto que coincide con el patrón de expresiones regulares.

  • descriptionespecifica una breve descripción del identificador de datos personalizado.

  • severity-levelsdefine umbrales de aparición personalizados para determinar la gravedad de los hallazgos que produce el identificador de datos personalizado: LOW de 1 a 49 casos, MEDIUM de 50 a 99 casos y, HIGH para 100 o más casos.

  • Stackes la clave de etiqueta de la etiqueta que se va a asignar al identificador de datos personalizado. Productiones el valor de etiqueta de la clave de etiqueta especificada.

Tras crear el identificador de datos personalizado, puede crear y configurar trabajos de detección de datos confidenciales para utilizarlo o añadirlo a la configuración para la detección automática de datos confidenciales.