Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Detectando entidades PII
Puede usar Amazon Comprehend para detectar PIIentidades en documentos de texto en inglés o español. Una PII entidad es un tipo específico de información de identificación personal (PII). Utilice la PII detección para localizar las PII entidades o redactarlas PII en el texto.
Temas
Localice PII las entidades
Para localizar las PII entidades en el texto, puede analizar rápidamente un único documento mediante el análisis en tiempo real. También puede iniciar un trabajo asíncrono por lotes en un conjunto de documentos.
Puede utilizar la consola o la API para analizar en tiempo real un único documento. El texto introducido puede incluir hasta 100 kilobytes de UTF -8 caracteres codificados.
Por ejemplo, puede enviar el siguiente texto de entrada para localizar las PII entidades:
Hola, Paulo Santos: El último extracto de la cuenta de su tarjeta de crédito 1111-0000-1111-0000 se envió por correo a 123 Any Street, Seattle, WA 98109.
La salida incluye la información de que “Paul Santos” es del tipo NAME
, que “1111-0000-1111-0000” es del tipo CREDIT_DEBIT_NUMBER
y que “123 Any Street, Seattle, WA 98109” es del tipo ADDRESS
.
Amazon Comprehend devuelve una lista de PII las entidades detectadas, con la siguiente información de cada PII entidad:
-
Una puntuación que estima la probabilidad de que el tramo de texto detectado corresponda al tipo de entidad detectada.
-
El tipo de PII entidad.
-
La ubicación de la PII entidad en el documento, especificada como desfases de caracteres para el inicio y el final de la entidad.
Por ejemplo, el texto de entrada mencionado anteriormente produce la siguiente respuesta:
{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }
Redacte PII las entidades
Para redactar PII las entidades del texto, puede utilizar la consola o iniciar un trabajo por lotes API asíncrono. Amazon Comprehend devuelve una copia del texto introducido con las redacciones de cada entidad. PII
Por ejemplo, puede enviar el siguiente texto de entrada para redactar las entidades: PII
Hola, Paulo Santos: El último extracto de la cuenta de su tarjeta de crédito 1111-0000-1111-0000 se envió por correo a 123 Any Street, Seattle, WA 98109.
El archivo de salida incluye el siguiente texto:
Hola, ***** ******: El último extracto de la cuenta de su tarjeta de crédito ***************** se envió por correo a *** *** ******* ******** ** *****.
PIItipos de entidades universales
Algunos tipos de PII entidades son universales (no específicos de cada país), como las direcciones de correo electrónico y los números de tarjetas de crédito. Amazon Comprehend detecta los siguientes tipos de entidades universalesPII:
- ADDRESS
-
Una dirección física, como «100 Main Street, AnytownUSA» o «Suite #12, edificio 123". Una dirección puede incluir información como la calle, el edificio, la ubicación, la ciudad, el estado, el país, el condado, el código postal, el distrito y el barrio.
- AGE
-
La edad de una persona, incluidas la cantidad y la unidad de tiempo. Por ejemplo, en la frase “Tengo 40 años”, Amazon Comprehend reconoce “40 años” como una edad.
- AWS_ACCESS_KEY
-
Un identificador único que se asocia a una clave de acceso secreta; se utilizan el ID de la clave de acceso y la clave de acceso secreta para firmar criptográficamente las solicitudes programáticas AWS .
- AWS_SECRET_KEY
-
Se trata de un identificador único que está asociado a una clave de acceso. El identificador de la clave de acceso y la clave de acceso secreta se utilizan para firmar criptográficamente las solicitudes programáticas AWS .
- CREDIT_DEBIT_CVV
-
Un código de verificación de tarjeta de tres dígitos (CVV) que está presente en VISA las tarjetas de crédito y débito Discover y Discover. MasterCard En el caso de las tarjetas de crédito o débito American Express, CVV se trata de un código numérico de cuatro dígitos.
- CREDIT_DEBIT_EXPIRY
-
Fecha de caducidad de la tarjeta de crédito o débito Este número suele tener cuatro dígitos y, a menudo, se formatea como. month/year or MM/YY Amazon Comprehend reconoce las fechas de caducidad, como el 21/01/2021 y enero de 2021.
- CREDIT_DEBIT_NUMBER
-
Se trata del número de una tarjeta de crédito o débito. La longitud de estos números puede oscilar entre 13 y 16 dígitos. Sin embargo, Amazon Comprehend también reconoce los números de las tarjetas de crédito o débito cuando solo están presentes los últimos cuatro dígitos.
- DATE_TIME
-
Una fecha puede incluir un año, un mes, un día, un día de la semana o una hora del día. Por ejemplo, Amazon Comprehend reconoce “11 a. m.” o “19 de enero de 2020”. Amazon Comprehend reconocerá fechas parciales, rangos de fechas e intervalos de fechas. También reconocerá décadas, como “la década de 1990”.
- DRIVER_ID
-
Se trata del número asignado a la licencia de conducir, que es un documento oficial que permite a una persona conducir uno o más vehículos motorizados en una vía pública. El número de licencia de conducir se compone de caracteres alfanuméricos.
-
Se trata de una dirección de correo electrónico, como marymajor@email.com.
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
Un número de cuenta bancaria internacional tiene formatos específicos en cada país. Consulte www.iban.com/structure
. - IP_ ADDRESS
-
Una IPv4 dirección, como 198.51.100.0.
- LICENSE_PLATE
-
La matrícula de un vehículo es emitida por el estado o el país donde está registrado el vehículo. El formato de matrículas de los vehículos de pasajeros suele ser de cinco a ocho dígitos y consta de letras mayúsculas y números. El formato varía según la ubicación del estado o país emisor.
- MAC_ADDRESS
-
Una dirección de control de acceso al medio (MAC) es un identificador único asignado a un controlador de interfaz de red (). NIC
- NAME
-
Se trata del nombre de una persona. Este tipo de entidad no incluye títulos como Dr., Sr., Sra. o Srta. Amazon Comprehend no aplica este tipo de entidad a los nombres que forman parte de organizaciones o direcciones. Por ejemplo, Amazon Comprehend reconoce a la “Organización John Doe” como una organización y a “calle Jane Doe” como una dirección.
- PASSWORD
-
Se trata de una cadena alfanumérica que se utiliza como contraseña, como, por ejemplo: “*seña#20muyespecial*”.
- PHONE
-
número de teléfono Este tipo de entidad también incluye números de fax y buscapersonas.
- PIN
-
Un número de identificación personal de cuatro dígitos (PIN) con el que puede acceder a su cuenta bancaria.
- SWIFT_CODE
-
Un SWIFT código es un formato estándar del código de identificación bancaria (BIC) que se utiliza para especificar un banco o una sucursal en particular. Los bancos utilizan estos códigos para las transferencias de dinero, como las transferencias bancarias internacionales.
SWIFTlos códigos constan de ocho u 11 caracteres. Los códigos de 11 dígitos se refieren a sucursales específicas, mientras que los códigos de ocho dígitos (o los códigos de 11 dígitos que terminan en «XXX») se refieren a la oficina central o principal.
- URL
-
Una dirección web, como www.example.com.
- USERNAME
-
Se trata de nombre de usuario que identifica una cuenta, como un nombre de inicio de sesión, un nombre de usuario, un apodo o un identificador.
- VEHICLE_IDENTIFICATION_NUMBER
-
El número de identificación del vehículo (VIN) identifica un vehículo de forma exclusiva. VINel contenido y el formato se definen en la especificación ISO 3779. Cada país tiene códigos y formatos específicos paraVINs.
Tipos de PII entidades específicos de cada país
Algunos tipos de PII entidades son específicos de cada país, como los números de pasaporte y otros números de identificación emitidos por el gobierno. Amazon Comprehend detecta los siguientes tipos de entidades específicas de cada paísPII:
- CA_ _ HEALTH NUMBER
-
El número del Servicio de Salud de Canadá es un identificador único de 10 dígitos que se requiere para que las personas accedan a los beneficios de atención médica.
- CA_ _ _ SOCIAL INSURANCE NUMBER
-
Un número de seguro social canadiense (SIN) es un identificador único de nueve dígitos que las personas necesitan para acceder a los programas y beneficios del gobierno.
El formato SIN es de tres grupos de tres dígitos, como 123-456-789. A se SIN puede validar mediante un sencillo proceso de verificación de dígitos denominado algoritmo de Luhn.
- EN_ AADHAAR
-
Un Aadhaar indio es un número de identificación único de 12 dígitos emitido por el Gobierno de India a los residentes de ese país. El formato Aadhaar tiene un espacio o un guion después del cuarto y el octavo dígito.
- EN_ NREGA
-
Un número de la Ley Nacional de Garantía del Empleo Rural de la India (NREGA) consta de dos letras seguidas de 14 números.
- EN_ _ PERMANENT _ ACCOUNT NUMBER
-
Un número de cuenta permanente de India es un número alfanumérico único de 10 dígitos emitido por el Departamento de Impuestos sobre la Renta.
- VOTEREN_ _ NUMBER
-
Se trata de una identificación de votante indio que consta de tres letras seguidas de siete números.
- REINO UNIDO_ _ NATIONAL _ _ HEALTH SERVICE NUMBER
-
Un número del Servicio Nacional de Salud del Reino Unido es un número de 10 a 17 dígitos, como 485 777 3456. El sistema actual formatea el número de 10 dígitos con espacios después del tercer y el sexto dígito. El último dígito es una suma de comprobación que detecta errores.
El formato numérico de 17 dígitos tiene espacios después de los dígitos 10.º y 13.º.
- REINO UNIDO_ _ _ NATIONAL INSURANCE NUMBER
-
Un número de seguro nacional del Reino Unido (NINO) proporciona a las personas acceso a las prestaciones del Seguro Nacional (seguridad social). También se utiliza para algunos fines en el sistema tributario del Reino Unido.
El número tiene nueve dígitos y comienza con dos letras, seguidas de seis números y una letra. A se NINO puede formatear con un espacio o un guión después de las dos letras y después del segundo, cuarto y sexto dígitos.
- UK_ _ _ UNIQUE _ TAXPAYER REFERENCE NUMBER
-
Una referencia tributaria única del Reino Unido (UTR) es un número de 10 dígitos que identifica a un contribuyente o a una empresa.
- BANK_ACCOUNT_NUMBER
-
Se trata de un número de cuenta bancaria de EE. UU., que suele tener entre 10 y 12 dígitos. Amazon Comprehend también reconoce los números de cuentas bancarias cuando solo están presentes los últimos cuatro dígitos.
- BANK_ROUTING
-
Se trata del número de ruta de la cuenta bancaria en EE. UU. Suelen tener nueve dígitos, pero Amazon Comprehend también reconoce los números de ruta cuando solo están presentes los últimos cuatro dígitos.
- PASSPORT_NUMBER
-
Número de pasaporte de EE. UU. Los números de pasaporte oscilan entre seis y nueve caracteres alfanuméricos.
- US_ _ _ INDIVIDUAL _ TAX IDENTIFICATION NUMBER
-
Un número de identificación fiscal individual de los EE. UU. (ITIN) es un número de nueve dígitos que comienza con un «9" y contiene un «7" o un «8" como cuarto dígito. A se le ITIN puede dar formato con un espacio o un guión después del tercer y cuarto dígitos.
- SSN
-
Un número de seguro social estadounidense (SSN) es un número de nueve dígitos que se emite a los ciudadanos estadounidenses, los residentes permanentes y los residentes que trabajan temporalmente. Amazon Comprehend también reconoce los números de seguridad social cuando solo están presentes los últimos cuatro dígitos.