As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Você pode usar o Amazon Comprehend para detectar entidades de PII em documentos de texto em inglês ou espanhol. Uma entidade PII é um tipo específico de informações de identificação pessoal (PII). Use a detecção de PII para localizar as entidades de PII ou redigir as entidades de PII no texto.
Tópicos
Localizar entidades de PII
Para localizar as entidades de PII em seu texto, você pode analisar rapidamente um único documento usando análise em tempo real, além de iniciar uma tarefa em lotes assíncronos em uma coleção de documentos.
Use o console ou a API para análise em tempo real de um único documento. Seu texto de entrada pode incluir até 100 kilobytes de caracteres codificados em UTF-8.
Por exemplo, você pode enviar o seguinte texto de entrada para localizar as entidades de PII:
Olá Paulo Santos. O extrato mais recente da sua conta de cartão de crédito 1111-0000-1111-0000 foi enviado para 123 Any Street, Seattle, WA 98109.
A saída inclui as informações de que “Paul Santos” tem o tipo NAME
, “1111-0000-1111-0000" tem o tipo CREDIT_DEBIT_NUMBER
, e “123 Any Street, Seattle, WA 98109" tem o tipo ADDRESS
.
O Amazon Comprehend retorna uma lista de entidades de PII detectadas, com as seguintes informações para cada entidade de PII:
-
Uma pontuação que estima a probabilidade de que a extensão de texto detectada seja do tipo de entidade detectada.
-
O tipo de entidade PII.
-
A localização da entidade PII no documento, especificada como offsets de caracteres para o início e o fim da entidade.
Por exemplo, o texto de entrada mencionado anteriormente produz a seguinte resposta:
{
"Entities": [
{
"Score": 0.9999669790267944,
"Type": "NAME",
"BeginOffset": 6,
"EndOffset": 18
},
{
"Score": 0.8905550241470337,
"Type": "CREDIT_DEBIT_NUMBER",
"BeginOffset": 69,
"EndOffset": 88
},
{
"Score": 0.9999889731407166,
"Type": "ADDRESS",
"BeginOffset": 103,
"EndOffset": 138
}
]
}
Redigir entidades de PII
Para redigir as entidades de PII em seu texto, use o console ou a API para iniciar uma tarefa em lote assíncrono. O Amazon Comprehend retorna uma cópia do texto de entrada com redações para cada entidade de PII.
Por exemplo, você pode enviar o seguinte texto de entrada para redigir as entidades de PII:
Olá Paulo Santos. O extrato mais recente da sua conta de cartão de crédito 1111-0000-1111-0000 foi enviado para 123 Any Street, Seattle, WA 98109.
O arquivo de saída inclui o seguinte texto:
Olá ***** ******. O extrato mais recente da sua conta de cartão de crédito ***************** foi enviado para *** ********* ********** ** *******.
Tipos de entidades universais de PII
Alguns tipos de entidades de PII são universais (não específicos para países individuais), como endereços de e-mail e números de cartão de crédito. O Amazon Comprehend detecta os seguintes tipos de entidades universais de PII:
- ADDRESS
-
Um endereço físico, como “100 Main Street, Anytown, EUA” ou “Suíte #12, Edifício 123”. Um endereço pode incluir informações como rua, prédio, localização, cidade, estado, país, condado, código postal, distrito e bairro.
- AGE
-
A idade de uma pessoa, incluindo a quantidade e a unidade de tempo. Por exemplo, na frase “Tenho 40 anos”, o Amazon Comprehend reconhece “40 anos” como uma idade.
- AWS_ACCESS_CHAVE
-
Um identificador exclusivo associado a uma chave de acesso secreta; você usa o ID da chave de acesso e a chave de acesso secreta para assinar AWS solicitações programáticas criptograficamente.
- AWS_SECRET_CHAVE
-
Um identificador exclusivo associado a uma chave de acesso. Você usa o ID da chave de acesso e a chave de acesso secreta para assinar AWS solicitações programáticas criptograficamente.
- CREDIT_DEBIT_CVV
-
Um código de verificação de cartão (CVV) de três dígitos que está presente nos cartões de crédito e débito VISA e Discover. MasterCard Para cartões de crédito ou débito American Express, o CVV é um código numérico de quatro dígitos.
- CREDIT_DEBIT_EXPIRY
-
Data de validade do cartão de crédito ou débito. Esse número geralmente tem quatro dígitos e geralmente é formatado como. month/year or MM/YY O Amazon Comprehend reconhece datas de expiração como 01/21, 01/2021 e jan de 2021.
- CREDIT_DEBIT_NUMBER
-
O número de um cartão de crédito ou débito. Esses números podem variar de 13 a 16 dígitos. No entanto, o Amazon Comprehend também reconhece números de cartão de crédito ou débito quando somente os últimos quatro dígitos estão presentes.
- DATE_TIME
-
Uma data pode incluir um ano, mês, dia, dia da semana ou hora do dia. Por exemplo, o Amazon Comprehend reconhece “19 de janeiro de 2020" ou “11h” como datas. O Amazon Comprehend reconhecerá datas parciais, conjunto de datas e intervalos de datas. Também reconhecerá décadas, como “a década de 1990”.
- DRIVER_ID
-
O número atribuído a uma carteira de motorista, que é um documento oficial que permite que uma pessoa opere um ou mais veículos motorizados em uma via pública. O número da carteira de motorista consiste em caracteres alfanuméricos.
-
Um endereço de e-mail, como marymajor@email.com.
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
Um número de conta bancária internacional tem formatos específicos em cada país. Consulte www.iban.com/structure
. - IP_ADDRESS
-
Um IPv4 endereço, como 198.51.100.0.
- LICENSE_PLATE
-
A placa de um veículo emitida pelo estado ou país em que o veículo está registrado. O formato para veículos de passageiros normalmente tem de cinco a oito dígitos, consistindo em letras maiúsculas e números. O formato varia de acordo com a localização do estado ou país emissor.
- MAC_ADDRESS
-
Um endereço MAC (controle de acesso à mídia) é um identificador exclusivo atribuído a um controlador de interface de rede (NIC).
- NAME
-
O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Dr., Sr., Sra. ou Senhorita. O Amazon Comprehend não aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, o Amazon Comprehend reconhece a “Organização John Doe” como uma organização e reconhece a “Rua Jane Doe” como um endereço.
- PASSWORD
-
Uma sequência alfanumérica usada como senha, como “*very20special #pass *”.
- PHONE
-
Um número de telefone. Esse tipo de entidade também inclui números de fax e pager.
- PIN
-
Um número de identificação pessoal (PIN) de quatro dígitos com o qual você pode acessar sua conta bancária.
- SWIFT_CODE
-
Um código SWIFT é um formato padrão do Código identificador bancário (BIC) usado para especificar um determinado banco ou agência. Os bancos usam esses códigos para transferências de dinheiro, como transferências eletrônicas internacionais.
Os códigos SWIFT consistem em oito ou 11 caracteres. Os códigos de 11 dígitos se referem a filiais específicas, enquanto os códigos de oito dígitos (ou códigos de 11 dígitos terminados em 'XXX') se referem à sede ou ao escritório principal.
- URL
-
Um endereço da web, como www.example.com.
- USERNAME
-
Um nome de usuário que identifica uma conta, como nome de login, nome de tela, apelido ou identificador.
- VEHICLE_IDENTIFICATION_NUMBER
-
Um Número de identificação de veículo (VIN) identifica um veículo de forma exclusiva. O conteúdo e o formato do VIN são definidos na especificação ISO 3779. Cada país tem códigos e formatos específicos para VINs.
Tipos de entidade de PII específicos de cada país
Alguns tipos de entidades de PII são específicos de cada país, como números de passaporte e outros números de identificação emitidos pelo governo. O Amazon Comprehend detecta os seguintes tipos de entidades de PII específicas de cada país:
- CA_HEALTH_NUMBER
-
O Canadian Health Service Number (Número do serviço de saúde canadense) é um identificador exclusivo de 10 dígitos, necessário para que as pessoas tenham acesso aos benefícios de saúde.
- CA_SOCIAL_INSURANCE_NUMBER
-
O Canadian Social Insurance Number (SIN: Número do seguro social canadense) é um identificador exclusivo de nove dígitos, necessário para que as pessoas acessem programas e benefícios governamentais.
O SIN é formatado como três grupos de três dígitos, como 123-456-789. Um SIN pode ser validado por meio de um processo simples de verificação de dígitos chamado algoritmo de Luhn
. - IN_AADHAAR
-
Um Aadhaar indiano é um número de identificação exclusivo de 12 dígitos emitido pelo governo indiano para os residentes da Índia. O formato Aadhaar tem um espaço ou hífen após o quarto e oitavo dígitos.
- IN_NREGA
-
Um número da Indian National Rural Employment Guarantee Act (NREGA — Lei nacional de garantia de emprego rural da Índia) consiste em duas letras seguidas por 14 números.
- IN_PERMANENT_ACCOUNT_NUMBER
-
Um número de conta permanente indiano é um número alfanumérico exclusivo de 10 dígitos emitido pelo Departamento de Imposto de Renda.
- IN_VOTER_NUMBER
-
Um ID de eleitor indiano consiste em três letras seguidas por sete números.
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
Um UK National Health Service Number (Número do Serviço Nacional de Saúde do Reino Unido) é um número de 10 a 17 dígitos, como 485 777 3456. O sistema atual formata o número de 10 dígitos com espaços após o terceiro e o sexto dígitos. O dígito final é uma soma de verificação que detecta erros.
O formato numérico de 17 dígitos tem espaços após o 10º e o 13º dígitos.
- UK_NATIONAL_INSURANCE_NUMBER
-
Um UK National Insurance Number (NINO: Número de seguro nacional do Reino Unido) que fornece às pessoas acesso aos benefícios do Seguro Nacional (previdência social). Também é usado para alguns fins no sistema tributário do Reino Unido.
O número tem nove dígitos e começa com duas letras, seguidas por seis números e uma letra. Um NINO pode ser formatado com um espaço ou um traço após as duas letras e depois do segundo, quarto e sexto dígitos.
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
Uma Unique Taxpayer Reference (UTR — Referência única de contribuinte) do Reino Unido é um número de 10 dígitos que identifica um contribuinte ou uma empresa.
- BANK_ACCOUNT_NUMBER
-
Um número de conta bancária dos EUA, que normalmente tem de 10 a 12 dígitos. O Amazon Comprehend também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes.
- BANK_ROUTING
-
Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Comprehend também reconhece números de roteamento quando somente os últimos quatro dígitos estão presentes.
- PASSPORT_NUMBER
-
Um número de passaporte dos EUA. Os números dos passaportes variam de seis a nove caracteres alfanuméricos.
- US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER
-
Um Número de Identificação Fiscal Individual (ITIN) dos EUA é um número de nove dígitos que começa com um “9” e contém um “7” ou “8” como o quarto dígito. Um ITIN pode ser formatado com um espaço ou um traço após o terceiro e o quarto dígitos.
- SSN
-
O Social Security Number (SSN — Número do seguro social) dos EUA é um número de nove dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários que trabalham. O Amazon Comprehend também reconhece números do seguro social quando somente os últimos quatro dígitos estão presentes.