Requisitos de palabras clave para los identificadores de datos administrados - Amazon Macie

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Requisitos de palabras clave para los identificadores de datos administrados

Para detectar ciertos tipos de datos confidenciales mediante identificadores de datos administrados, Amazon Macie requiere que una palabra clave esté cerca de los datos. Si es así para un tipo concreto de datos, en los temas de referencia de esta sección se indican los requisitos de palabras clave específicos para esos datos.

Si una palabra clave debe estar cerca de un tipo de datos en particular, normalmente debe estar dentro de los 30 caracteres (ambos incluidos) de los datos. Los requisitos de proximidad adicionales varían en función del tipo de archivo o el formato de almacenamiento de un objeto de Amazon Simple Storage Service (Amazon S3).

Datos columnares estructurados

En el caso de los datos en columnas, una palabra clave debe formar parte del mismo valor o estar en el nombre de la columna o el campo que almacena un valor. Esto es así para los libros de trabajo de Microsoft Excel, los archivos CSV y los archivos TSV.

Por ejemplo, si el valor de un campo contiene tanto el SSN como un número de nueve dígitos que usa la sintaxis de un número de seguro social (SSN) de EE.UU., Macie puede detectar el SSN en el campo. Del mismo modo, si el nombre de una columna contiene el SSN, Macie puede detectar todos los SSN de la columna. Macie considera que los valores de esa columna están cerca de la palabra clave SSN.

Datos estructurados basados en registros

En el caso de los datos basados en registros, una palabra clave debe formar parte del mismo valor o estar en el nombre de un elemento de la ruta al campo o matriz que almacena un valor. Esto es así para los contenedores de objetos de Apache Avro, los archivos de Apache Parquet, los archivos JSON y los archivos JSON Lines.

Por ejemplo, si el valor de un campo contiene credenciales y una secuencia de caracteres que utiliza la sintaxis de una clave de acceso AWS secreta, Macie puede detectar la clave en el campo. Del mismo modo, si la ruta a un campo es$.credentials.aws.key, Macie puede detectar una clave de acceso AWS secreta en el campo. Macie considera que el valor del campo está cerca de las credenciales de la palabra clave.

Datos no estructurados

En el caso de los datos no estructurados, una palabra clave normalmente debe tener un máximo de 30 caracteres (inclusive) de los datos. No hay requisitos de proximidad adicionales. Esto es así para los archivos en formato de documento portátil de Adobe, los documentos de Microsoft Word, los mensajes de correo electrónico y los archivos de texto no binarios distintos de los archivos CSV, JSON, JSON Lines y TSV. Esto incluye todos los datos estructurados, como tablas o XML, de estos tipos de archivos.

Las palabras clave no distinguen entre mayúsculas y minúsculas. Además, si una palabra clave contiene un espacio, Macie busca automáticamente las variaciones de palabras clave que no contienen el espacio o que contienen un guion bajo (_) o un guion (-) en lugar del espacio. En ciertos casos, Macie también expande o abrevia una palabra clave para tener en cuenta las variaciones comunes de esa palabra clave.

Para ver una demostración de cómo las palabras clave proporcionan contexto y ayudan a Macie a detectar tipos específicos de datos confidenciales, vea el siguiente vídeo: