Detectar e processar dados sigilosos - AWS Glue

Detectar e processar dados sigilosos

A transformação Detect PII identifica informações de identificação pessoal (PII) em sua origem dos dados. Você escolhe a entidade de PII para identificar, como deseja que os dados sejam verificados e o que fazer com a entidade de PII identificada pela transformação Detect PII.

A transformação Detect PII permite detectar, mascarar ou remover entidades que você define ou que são predefinidas pela AWS. Isso permite aumentar a conformidade e reduzir a responsabilidade. Por exemplo, talvez você queira garantir a exclusão de informações de identificação pessoal passíveis de leitura em seus dados e deseje mascarar números de previdência social com uma string fixa (por exemplo, xxx-xx-xxxx), números de telefone ou endereços.

Para trabalhar com dados confidenciais fora do AWS Glue Studio, consulte Usar detecção de dados confidenciais fora do AWS Glue Studio

Como escolher a forma como os dados serão lidos

Ao examinar seu conjunto de dados em busca de dados confidenciais, como informações de identificação pessoal (PII), é possível optar por detectar PII em cada linha ou detectar as colunas que contêm dados de PII.

A captura de tela mostra as opções na transformação Detect PII quando ela é selecionada para detectar campos que contêm PII na origem dos dados.

Ao escolher a opção Detect PII in each cell (Detectar PII em cada célula), você está escolhendo verificar todas as linhas na origem dos dados. Esta é uma leitura abrangente para garantir que as entidades de PII sejam identificadas.

Ao escolher a opção Detect fields containing PII (Detectar campos contendo PII), você está optando por ler uma amostra de linhas para entidades de PII. Essa é uma maneira de manter os custos e os recursos baixos e, ao mesmo tempo, identificar os campos em que as entidades de PII são encontradas.

Ao optar por detectar campos que contêm PII, você pode reduzir custos e melhorar a performance por meio da amostragem de uma parte das linhas. Escolher essa opção permitirá que você especifique opções adicionais:

  • Sample portion (Porção da amostra): permite especificar a porcentagem de linhas que serão amostradas. Por exemplo, ao inserir "50", estará especificando que deseja 50% das linhas lidas para a entidade PII.

  • Detection threshold (Limite de detecção): permite que você especifique a porcentagem de linhas que contêm a entidade PII para que toda a coluna seja identificada como tendo a entidade PII. Por exemplo, ao digitar "10", você estará especificando que o número da entidade de PII, US Phone, nas linhas lidas deve ser 10% ou maior para que o campo seja identificado como tendo a entidade de PII US Phone. Se a porcentagem de linhas que contêm a entidade de PII for inferior a 10%, esse campo não será rotulado como tendo a entidade PII US Phone nele.

Escolha das entidades de PII para detecção

Se optou por Detect PII in each cell (Detectar PII em cada célula), escolha entre uma de três opções:

  • Todos os padrões de PII disponíveis: isso inclui entidades da AWS.

  • Selecionar categorias: quando você selecionar categorias, os padrões de PII incluirão automaticamente os padrões nas categorias selecionadas.

  • Selecionar padrões específicos: somente os padrões selecionados serão detectados.

Para obter uma lista dos tipos de dados confidenciais gerenciados, consulte Tipos de dados gerenciados.

Escolher entre todos os padrões de PII disponíveis

Se você escolher All available PII patterns (Todos os padrões de PII disponíveis), selecione entidades predefinidas pela AWS. É possível selecionar uma, mais de uma ou todas as entidades.

A captura de tela mostra as opções na lista de entidades predefinidas da AWS.

Selecionar categorias

Se escolheu Select categories (Selecionar categorias) como os padrões de PII a serem detectados, selecione entre as opções no menu suspenso. Observe que algumas entidades podem pertencer a mais de uma categoria. Por exemplo, Person's name (Nome do indivíduo) é uma entidade que pertence às categorias Universal e HIPAA.

  • Universal (exemplos: e-mail, cartão de crédito)

  • HIPAA (exemplos: carteira de habilitação dos EUA, código do Healthcare Common Procedure Coding System [HCPCS – Sistema de Codificação de Procedimentos Comuns de Saúde])

  • Redes (exemplos: endereço IP, endereço MAC)

  • Argentina

  • Austrália

  • Áustria

  • Bélgica

  • Bósnia

  • Bulgária

  • Canadá

  • Chile

  • Colômbia

  • Croácia

  • Chipre

  • Tchéquia

  • Dinamarca

  • Estônia

  • Finlândia

  • França

  • Alemanha

  • Grécia

  • Hungria

  • Irlanda

  • Coreia

  • Japão

  • México

  • Holanda

  • Nova Zelândia

  • Noruega

  • Portugal

  • Romênia

  • Cingapura

  • Eslováquia

  • Eslovênia

  • Espanha

  • Suécia

  • Suíça

  • Turquia

  • Ucrânia

  • Estados Unidos

  • Reino Unido

  • Venezuela

Selecionar padrões específicos

Se escolher Select specific patterns (Selecionar padrões específicos) como os padrões de PII a serem detectados, você pode pesquisar ou navegar em uma lista de padrões que já criou, ou criar um novo padrão de entidade de detecção.

As etapas abaixo descrevem como criar um novo padrão personalizado para detectar dados sigilosos. Você criará o padrão personalizado inserindo um nome para o padrão personalizado, adicionará uma expressão regular e, opcionalmente, definirá palavras de contexto.

  1. Para criar um novo padrão, clique no botão Create new (Criar novo)

    A captura de tela mostra a seção Select patterns (Selecionar padrões).
  2. Na página Create detection entity (Criar entidade de detecção), insira o nome da entidade e uma expressão regular. A expressão regular (Regex) é o que o AWS Glue usará para fazer a correspondência de entidades.

  3. Clique em Validate (Validar). Se a validação for bem-sucedida, você verá uma mensagem de confirmação informando que a string é uma expressão regular válida. Se a validação não for bem-sucedida, você verá uma mensagem informando que a string não está em conformidade com a formatação adequada e com os caracteres, operadores ou construções aceitos.

  4. Você pode optar por adicionar palavras de contexto além da expressão regular. Palavras de contexto podem aumentar a probabilidade de uma correspondência. Elas podem ser úteis em casos nos quais os nomes de campo não descrevem a entidade. Por exemplo, os números da previdência social dos EUA podem ser nomeados “SSN” ou “SS”. A adição dessas palavras de contexto pode ajudar na correspondência da entidade.

  5. Clique em Create (Criar) para criar a entidade de detecção. Qualquer entidade criada fica visível no console do AWS Glue Studio. Clique em Detection entities (Entidades de detecção) no menu de navegação à esquerda.

    Você pode editar, excluir ou criar entidades de detecção na página Detection entities (Entidades de detecção). Você também pode pesquisar por um padrão usando o campo de pesquisa.

Especificar o nível da sensibilidade de detecção

É possível definir o nível de sensibilidade ao usar a detecção de dados confidenciais.

  • Alto (padrão): detecta mais entidades para casos de uso que exigem um nível mais alto de sensibilidade. Todos os trabalhos do AWS Glue criados após novembro de 2023 são habilitados automaticamente com essa configuração.

  • Baixo: detecta menos entidades e reduz os falsos positivos.

A captura de tela mostra as opções de sensibilidade da detecção global. Existe uma opção baixa, que proporciona uma melhor precisão, mas é mais rigorosa e pode resultar em menor detecção geral. A segunda opção é uma configuração de alta sensibilidade que possibilita uma detecção mais ampla e é mais adequada se você precisar de uma maior detecção de PII.

Como escolher o que fazer com dados de PII identificados

Se você optar por detectar PII em toda a fonte de dados, poderá selecionar uma ação global para aplicar:

  • Enrich data with detection results (Enriquecer dados com resultados da detecção): se você escolher Detect PII em cada célula, poderá armazenar as entidades detectadas em uma nova coluna.

  • Redact detected text (Editar o texto detectado): é possível substituir o valor de PII detectado por uma string especificada no campo opcional de entrada de texto Replacing text (Substituindo texto). Se nenhuma string for especificada, a entidade de PII detectada será substituída por "*******".

  • Editar o texto detectado: é possível substituir parte das PII detectadas por uma string especificada por você. Há duas opções possíveis: deixar as extremidades desmascaradas ou mascarar fornecendo um padrão de regex explícito. Este recurso ainda não está disponível no AWS Glue 2.0.

  • Aplicar hash criptográfico: você pode passar o valor de PII detectado para uma função de hash criptográfico SHA-256 e substituir o valor pela saída da função.

A captura de tela mostra as opções na transformação Detect PII quando todas as linhas são selecionadas na origem dos dados para detectar PII.

Diferenças entre o AWS Glue versões 2.0 e 3.0+

Os trabalhos do AWS Glue 2.0 retornarão um novo DataFrame com as informações de PII detectadas para cada coluna em uma coluna suplementar. Qualquer redação ou trabalho de hash é visível no script AWS Glue na guia visual.

Os trabalhos do AWS Glue 3.0 e 4.0 retornarão um novo DataFrame com essa mesma coluna suplementar. Uma nova chave para "actionUsed" está presente e pode ser uma de DETECT, REDACT, PARTIAL_REDACT ou SHA256_HASH. Se uma ação de mascaramento for selecionada, o DataFrame retornará dados com dados confidenciais mascarados.

Adicionar substituições de ações refinadas

Configurações adicionais de detecção e ação podem ser adicionadas à tabela de substituições de ações refinadas. Isso permite a você:

  • Incluir ou excluir determinadas colunas da detecção: um esquema inferido na fonte de dados preencherá a tabela com as colunas disponíveis.

  • Especificar configurações específicas que sejam mais refinadas do que usar ações globais: por exemplo, você pode especificar diferentes configurações de redação de texto para diferentes tipos de entidade.

  • Especificar uma ação diferente da ação global: se uma ação diferente precisar ser aplicada em um tipo de dados confidenciais diferente, isso pode ser feito aqui. Observe que duas ações diferentes de edição no local (redação e hash) não podem ser usadas na mesma coluna, mas a detecção sempre pode ser usada.

A captura de tela mostra as substituições de ações refinadas. É possível adicionar, editar, excluir ou editar como JSON qualquer substituição de ação para o trabalho.