Detectando entidades PII - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detectando entidades PII

Você pode usar o Amazon Comprehend para PIIdetectar entidades em documentos de texto em inglês ou espanhol. Uma PII entidade é um tipo específico de informação de identificação pessoal ()PII. Use a PII detecção para localizar as PII entidades ou redigir as PII entidades no texto.

Localize PII entidades

Para localizar as PII entidades em seu texto, você pode analisar rapidamente um único documento usando a análise em tempo real. Você também pode iniciar um trabalho em lotes assíncrono em uma coleção de documentos.

Você pode usar o console ou o API para análise em tempo real de um único documento. Seu texto de entrada pode incluir até 100 kilobytes de UTF -8 caracteres codificados.

Por exemplo, você pode enviar o seguinte texto de entrada para localizar as PII entidades:

Olá Paulo Santos. O extrato mais recente da sua conta de cartão de crédito 1111-0000-1111-0000 foi enviado para 123 Any Street, Seattle, WA 98109.

A saída inclui as informações de que “Paul Santos” tem o tipo NAME, “1111-0000-1111-0000" tem o tipo CREDIT_DEBIT_NUMBER, e “123 Any Street, Seattle, WA 98109" tem o tipo ADDRESS.

O Amazon Comprehend retorna uma lista de entidades PII detectadas, com as seguintes informações para cada entidade: PII

  • Uma pontuação que estima a probabilidade de que a extensão de texto detectada seja do tipo de entidade detectada.

  • O tipo de PII entidade.

  • A localização da PII entidade no documento, especificada como deslocamentos de caracteres para o início e o fim da entidade.

Por exemplo, o texto de entrada mencionado anteriormente produz a seguinte resposta:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Redigir entidades PII

Para redigir as PII entidades em seu texto, você pode usar o console ou o API para iniciar um trabalho em lotes assíncrono. O Amazon Comprehend retorna uma cópia do texto de entrada com redações para cada entidade. PII

Por exemplo, você pode enviar o seguinte texto de entrada para redigir as PII entidades:

Olá Paulo Santos. O extrato mais recente da sua conta de cartão de crédito 1111-0000-1111-0000 foi enviado para 123 Any Street, Seattle, WA 98109.

O arquivo de saída inclui o seguinte texto:

Olá ***** ******. O extrato mais recente da sua conta de cartão de crédito ***************** foi enviado para *** ********* ********** ** *******.

PIItipos de entidades universais

Alguns tipos de PII entidades são universais (não específicos para países individuais), como endereços de e-mail e números de cartão de crédito. O Amazon Comprehend detecta os seguintes tipos de entidades universais: PII

ADDRESS

Um endereço físico, como “100 Main Street, AnytownUSA” ou “Suite #12, Edifício 123". Um endereço pode incluir informações como rua, prédio, localização, cidade, estado, país, condado, código postal, distrito e bairro.

AGE

A idade de uma pessoa, incluindo a quantidade e a unidade de tempo. Por exemplo, na frase “Tenho 40 anos”, o Amazon Comprehend reconhece “40 anos” como uma idade.

AWS_ACCESS_KEY

Um identificador exclusivo associado a uma chave de acesso secreta; você usa o ID da chave de acesso e a chave de acesso secreta para assinar AWS solicitações programáticas criptograficamente.

AWS_SECRET_KEY

Um identificador exclusivo associado a uma chave de acesso. Você usa o ID da chave de acesso e a chave de acesso secreta para assinar AWS solicitações programáticas criptograficamente.

CREDIT_DEBIT_CVV

Um código de verificação de cartão de três dígitos (CVV) que está presente nos VISA cartões de crédito e débito do Discover. MasterCard Para cartões de crédito ou débito American Express, CVV é um código numérico de quatro dígitos.

CREDIT_DEBIT_EXPIRY

Data de validade do cartão de crédito ou débito. Esse número geralmente tem quatro dígitos e geralmente é formatado como. month/year or MM/YY O Amazon Comprehend reconhece datas de expiração como 01/21, 01/2021 e jan de 2021.

CREDIT_DEBIT_NUMBER

O número de um cartão de crédito ou débito. Esses números podem variar de 13 a 16 dígitos. No entanto, o Amazon Comprehend também reconhece números de cartão de crédito ou débito quando somente os últimos quatro dígitos estão presentes.

DATE_TIME

Uma data pode incluir um ano, mês, dia, dia da semana ou hora do dia. Por exemplo, o Amazon Comprehend reconhece “19 de janeiro de 2020" ou “11h” como datas. O Amazon Comprehend reconhecerá datas parciais, conjunto de datas e intervalos de datas. Também reconhecerá décadas, como “a década de 1990”.

DRIVER_ID

O número atribuído a uma carteira de motorista, que é um documento oficial permitindo que uma pessoa opere um ou mais veículos motorizados em uma via pública. O número da carteira de motorista consiste em caracteres alfanuméricos.

EMAIL

Um endereço de e-mail, como marymajor@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Um número de conta bancária internacional tem formatos específicos em cada país. Consulte www.iban.com/structure.

IP_ ADDRESS

Um IPv4 endereço, como 198.51.100.0.

LICENSE_PLATE

A placa de um veículo é emitida pelo estado ou país em que o veículo está registrado. O formato para veículos de passageiros normalmente tem de cinco a oito dígitos, consistindo em letras maiúsculas e números. O formato varia de acordo com a localização do estado ou país emissor.

MAC_ADDRESS

Um endereço de controle de acesso à mídia (MAC) é um identificador exclusivo atribuído a um controlador de interface de rede (NIC).

NAME

O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Dr., Sr., Sra. ou Senhorita. O Amazon Comprehend não aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, o Amazon Comprehend reconhece a “Organização John Doe” como uma organização e reconhece a “Rua Jane Doe” como um endereço.

PASSWORD

Uma sequência alfanumérica usada como senha, como “*very20special #pass *”.

PHONE

Um número de telefone. Esse tipo de entidade também inclui números de fax e pager.

PIN

Um número de identificação pessoal de quatro dígitos (PIN) com o qual você pode acessar sua conta bancária.

SWIFT_CODE

Um SWIFT código é um formato padrão do Código Identificador Bancário (BIC) usado para especificar um determinado banco ou agência. Os bancos usam esses códigos para transferências de dinheiro, como transferências eletrônicas internacionais.

SWIFTos códigos consistem em oito ou 11 caracteres. Os códigos de 11 dígitos se referem a filiais específicas, enquanto os códigos de oito dígitos (ou códigos de 11 dígitos terminados em 'XXX') se referem à sede ou ao escritório principal.

URL

Um endereço da web, como www.example.com.

USERNAME

Um nome de usuário que identifica uma conta, como nome de login, nome de tela, apelido ou identificador.

VEHICLE_IDENTIFICATION_NUMBER

Um Número de Identificação do Veículo (VIN) identifica exclusivamente um veículo. VINo conteúdo e o formato são definidos na especificação ISO 3779. Cada país tem códigos e formatos específicos paraVINs.

Tipos de entidade específicos do país PII

Alguns tipos de PII entidades são específicos de cada país, como números de passaporte e outros números de identificação emitidos pelo governo. O Amazon Comprehend detecta os seguintes tipos de entidades específicas de cada país: PII

CA_ _ HEALTH NUMBER

O Canadian Health Service Number (Número do serviço de saúde canadense) é um identificador exclusivo de 10 dígitos, necessário para que as pessoas tenham acesso aos benefícios de saúde.

CA _ _ SOCIAL _ INSURANCE NUMBER

Um Número de Seguro Social Canadense (SIN) é um identificador exclusivo de nove dígitos, necessário para que indivíduos acessem programas e benefícios governamentais.

O SIN é formatado como três grupos de três dígitos, como 123-456-789. A SIN pode ser validada por meio de um processo simples de verificação de dígitos chamado algoritmo de Luhn.

EM_ AADHAAR

Um Aadhaar indiano é um número de identificação exclusivo de 12 dígitos emitido pelo governo indiano para os residentes da Índia. O formato Aadhaar tem um espaço ou hífen após o quarto e oitavo dígitos.

EM_ NREGA

Um número da Lei Nacional de Garantia de Emprego Rural da Índia (NREGA) consiste em duas letras seguidas por 14 números.

EM_ _ PERMANENT _ ACCOUNT NUMBER

Um número de conta permanente indiano é um número alfanumérico exclusivo de 10 dígitos emitido pelo Departamento de Imposto de Renda.

EM_ _ VOTER NUMBER

Um ID de eleitor indiano consiste em três letras seguidas por sete números.

Reino Unido_ NATIONAL _ _ HEALTH _ SERVICE NUMBER

Um UK National Health Service Number (Número do Serviço Nacional de Saúde do Reino Unido) é um número de 10 a 17 dígitos, como 485 777 3456. O sistema atual formata o número de 10 dígitos com espaços após o terceiro e o sexto dígitos. O dígito final é uma soma de verificação que detecta erros.

O formato numérico de 17 dígitos tem espaços após o 10º e o 13º dígitos.

Reino Unido_ NATIONAL _ _ INSURANCE NUMBER

Um Número de Seguro Nacional do Reino Unido (NINO) fornece aos indivíduos acesso aos benefícios do Seguro Nacional (previdência social). Também é usado para alguns fins no sistema tributário do Reino Unido.

O número tem nove dígitos e começa com duas letras, seguidas por seis números e uma letra. A NINO pode ser formatado com um espaço ou um traço após as duas letras e depois do segundo, quarto e sexto dígitos.

Reino Unido_ UNIQUE _ _ TAXPAYER _ REFERENCE NUMBER

Uma Referência de Contribuinte Única do Reino Unido (UTR) é um número de 10 dígitos que identifica um contribuinte ou uma empresa.

BANK_ACCOUNT_NUMBER

Um número de conta bancária dos EUA, que normalmente tem de 10 a 12 dígitos. O Amazon Comprehend também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes.

BANK_ROUTING

Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Comprehend também reconhece números de roteamento quando somente os últimos quatro dígitos estão presentes.

PASSPORT_NUMBER

Um número de passaporte dos EUA. Os números dos passaportes variam de seis a nove caracteres alfanuméricos.

EUA_ INDIVIDUAL _ _ TAX _ IDENTIFICATION NUMBER

Um Número de Identificação Fiscal Individual dos EUA (ITIN) é um número de nove dígitos que começa com um “9" e contém um “7" ou “8" como quarto dígito. Um ITIN pode ser formatado com um espaço ou um traço após o terceiro e o quarto dígitos.

SSN

O Número do Seguro Social dos EUA (SSN) é um número de nove dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários que trabalham. O Amazon Comprehend também reconhece números do seguro social quando somente os últimos quatro dígitos estão presentes.