La transformación Detectar PII identifica la información de identificación personal (PII) en su origen de datos. Usted elige la entidad PII que desea identificar, cómo desea que se escaneen los datos y qué hacer con la entidad PII identificada por la transformación Detectar PII.
La transformación Detectar PII proporciona la capacidad de detectar, enmascarar o eliminar entidades definidas por el usuario o predefinidas por AWS. Esto permite aumentar la conformidad y reducir la responsabilidad. Por ejemplo, es posible que desee asegurarse de que no exista información de identificación personal en los datos que pueda leerse, y que desee enmascarar números de la seguridad social con una cadena fija (por ejemplo, xxx-xx-xxxx), números de teléfono o direcciones.
Para trabajar con datos confidenciales fuera de AWS Glue Studio, consulte Usar la detección de datos confidenciales fuera de AWS Glue Studio
Temas
Elegir cómo desea que se escaneen los datos
Cuando escanea su conjunto de datos en busca de datos confidenciales, como información de identificación personal (PII), puede elegir detectar la PII en cada fila o detectar las columnas que contienen datos de PII.

Cuando elige Detectar PII en cada celda, elige escanear todas las filas del origen de datos. Se trata de un análisis exhaustivo para garantizar que se identifiquen las entidades de PII.
Cuando elige Detectar campos que contienen PII, elige escanear una muestra de filas en busca de entidades de PII. Esta es una forma de mantener bajos los costos y los recursos, al mismo tiempo que se identifican los campos en los que se encuentran las entidades de PII.
Cuando elige detectar campos que contienen PII, puede reducir los costos y mejorar el rendimiento mediante muestras de una parte de las filas. La elección de esta opción permitirá que especifique opciones adicionales:
-
Porción de muestra: permite especificar el porcentaje de filas que se van a mostrar. Por ejemplo, si ingresa ‘50’, especifica que desea el 50 por ciento de las filas escaneadas para la entidad PII.
-
Umbrales de detección: permite especificar el porcentaje de filas que contienen la entidad PII para identificar que toda la columna tiene la entidad PII. Por ejemplo, si ingresa ‘10’, especifica que el número de la entidad PII, teléfono EE. UU., en las filas escaneadas debe ser del 10 por ciento o superior para que el campo se identifique como la entidad PII, teléfono EE. UU. Si el porcentaje de filas que contienen la entidad PII es inferior al 10 por ciento, ese campo no se etiquetará por tener la entidad PII, teléfono EE. UU., en él.
Elección de las entidades de PII que se desea detectar
Si ha seleccionado Detectar PII en cada celda, puede elegir entre tres opciones:
-
Todos los patrones de PII disponibles: esto incluye las entidades de AWS.
-
Seleccionar categorías: si selecciona las categorías, los patrones de PII incluirán automáticamente los patrones de las categorías seleccionadas.
-
Seleccionar patrones específicos: solo se detectarán los patrones que seleccione.
Para obtener una lista completa de los tipos de datos confidenciales administrados, consulte Tipos de datos administrados.
Elegir entre todos los patrones de PII disponibles
Si elige Todos los patrones de PII disponibles, seleccione entidades predefinidas por AWS. Puede seleccionar una entidad, varias o todas ellas.

Seleccionar categorías
Si ha elegido Seleccionar categorías como patrones de PII que se deben detectar, puede elegir entre las opciones del menú desplegable. Tenga en cuenta que algunas entidades pueden pertenecer a más de una categoría. Por ejemplo, Nombre de la persona es una entidad que pertenece a las categorías Universal y HIPAA.
-
Universal (ejemplos: correo electrónico, tarjeta de crédito)
-
HIPAA (ejemplos: licencia de conducir de EE. UU., código del sistema de codificación de procedimientos comunes de atención médica [HCPCS])
-
Redes (ejemplos: dirección IP, dirección MAC)
Argentina
Australia
Austria
Bélgica
Bosnia
Bulgaria
Canadá
Chile
Colombia
Croacia
Chipre
Chequia
Dinamarca
Estonia
Finlandia
Francia
Alemania
Grecia
Hungría
Irlanda
Corea
Japón
México
Países Bajos
Nueva Zelanda
Noruega
Portugal
Rumanía
Singapur
Eslovaquia
Eslovenia
España
Suecia
Suiza
Turquía
Ucrania
Estados Unidos
Reino Unido
Venezuela
Seleccionar patrones específicos
Si elige Seleccionar patrones específicos como patrones de PII que se deben detectar, puede buscar o examinar una lista de patrones que ya haya creado, o bien crear un nuevo patrón de entidad de detección.
En los siguientes pasos se describe la creación de un nuevo patrón personalizado para detectar información confidencial. Creará el patrón personalizado al ingresar un nombre para dicho patrón, agregará una expresión regular y, opcionalmente, definirá palabras de contexto.
-
Para crear un nuevo patrón, haga clic en el botón Crear nuevo.
-
En la página Crear entidad de detección, ingrese el nombre de la entidad y una expresión regular. La expresión regular (regex) es lo que AWS Glue utilizará para buscar coincidencias de entidades.
-
Haga clic en Validar. Si la validación se realiza correctamente, aparecerá un mensaje de confirmación que indica que la cadena es una expresión regular válida. Si la validación no se realiza correctamente, aparecerá un mensaje que indica que la cadena no se ajusta al formato adecuado ni a los caracteres, los operadores o las construcciones aceptados.
-
Puede optar por agregar palabras contextuales además de la expresión regular. Las palabras contextuales pueden aumentar la probabilidad de coincidencia. Pueden resultar útiles en los casos en que los nombres de los campos no ofrezcan información descriptiva sobre la entidad. Por ejemplo, los números de la seguridad social pueden denominarse "NSS" o "SS". Agregar estas palabras contextuales puede ayudar a encontrar una coincidencia de la entidad.
-
Haga clic en Crear para crear la entidad de detección. Todas las entidades creadas son visibles en la consola de AWS Glue Studio. Haga clic en Entidades de detección en el menú de navegación de la izquierda.
Puede editar, eliminar o crear entidades de detección desde la página Entidades de detección. También puede buscar un patrón mediante el campo de búsqueda.
Especificar el nivel de sensibilidad de detección
Puede establecer el nivel de sensibilidad al utilizar la detección de datos confidenciales.
-
Alto: (predeterminado) detecta más entidades para los casos de uso que requieren un mayor nivel de sensibilidad. Todos los trabajos de AWS Glue creados después de noviembre de 2023 se activan automáticamente en esta configuración.
-
Bajo: detecta menos entidades y reduce los falsos positivos.

Elegir qué hacer con los datos de PII identificados
Si optó por detectar PII en todo el origen de datos, puede elegir una acción global a aplicar:
-
Enriquecer los datos con los resultados de detección: si eligió Detectar PII en cada celda, puede almacenar las entidades detectadas en una nueva columna.
-
Texto detectado de redacción: puede reemplazar el valor de PII detectado por una cadena que especifique en el campo opcional Reemplazo de entrada de texto. Si no se especifica ninguna cadena, la entidad PII detectada se sustituye por ‘*******’.
-
Texto detectado de redacción: puede reemplazar parte del valor de PII detectado por una cadena que elija. Hay dos opciones posibles: dejar los extremos desenmascarados o enmascararlos proporcionando un patrón de expresiones regulares explícito. Esta característica todavía no está disponible en AWS Glue 2.0.
-
Aplicar hash criptográfico: puede pasar el valor de PII detectado a una función de hash criptográfico SHA-256 y reemplazar el valor por la salida de la función.

Diferencias entre AWS Glue las versiones 2.0 y 3.0+
Los trabajos AWS Glue 2.0 devolverán un nuevo DataFrame con la información de PII detectada para cada columna en una columna adicional. Cualquier redacción o trabajo hash está visible dentro del guion de AWS Glue en la pestaña visual.
Los trabajos de AWS Glue 3.0 y 4.0 devolverán un nuevo DataFrame con esta misma columna complementaria. Hay una nueva clave para "actionUsed" y puede ser una de las siguientes: DETECT
, REDACT
, PARTIAL_REDACT
o SHA256_HASH
. Si se selecciona una acción de enmascaramiento, el DataFrame devolverá datos con el enmascaramiento de datos confidenciales.
Agregar anulaciones de acciones detalladas
Se pueden añadir ajustes adicionales de detección y acción a la tabla de anulaciones de acciones detalladas. Esto le permite:
-
Incluir o excluir determinadas columnas de la detección: un esquema inferido en el origen de datos rellenará la tabla con las columnas disponibles.
-
Especifique ajustes específicos que sean más detallados que mediante acciones globales. Por ejemplo, puede especificar distintos ajustes de texto de redacción para distintos tipos de entidades.
-
Especifique una acción diferente a la acción global: si desea aplicar una acción diferente a un tipo de datos confidenciales diferente, puede hacerlo aquí. Tenga en cuenta que no se pueden usar dos acciones de edición in situ diferentes (redacción y codificación) en la misma columna, pero siempre se puede usar la función de detección.
