Opções de configuração para identificadores de dados personalizados - Amazon Macie

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Opções de configuração para identificadores de dados personalizados

Ao usar identificadores de dados personalizados, você pode definir critérios personalizados para detectar dados confidenciais em objetos do Amazon Simple Storage Service (Amazon S3). Você pode complementar os identificadores de dados gerenciados que o Amazon Macie fornece e detectar dados confidenciais que reflitam os cenários, a propriedade intelectual ou os dados proprietários específicos da sua organização.

Cada identificador de dados personalizado especifica critérios de detecção e, opcionalmente, configurações de severidade para as descobertas que o identificador produz. Os critérios de detecção especificam uma expressão regular que define um padrão de texto para corresponder em um objeto do S3. Os critérios também podem especificar sequências de caracteres e uma regra de proximidade que refina os resultados. As configurações de severidade especificam qual severidade atribuir às descobertas. A severidade pode ser baseada no número de ocorrências de texto que correspondem aos critérios de detecção do identificador.

Critérios de detecção

Ao criar um identificador de dados personalizado, você especifica uma expressão regular (regex) que define um padrão de texto correspondente. Você também pode especificar sequências de caracteres, como palavras e frases, e uma regra de proximidade que refina os resultados. As sequências de caracteres podem ser: palavras-chave, que são palavras ou frases que devem estar próximas ao texto que corresponda ao regex, ou ignorar palavras, que são palavras ou frases a serem excluídas dos resultados.

Para o regex, o Amazon Macie oferece suporte a um subconjunto da sintaxe padrão fornecida pela biblioteca Perl Compatible Regular Expressions (). PCRE Das construções fornecidas pela PCRE biblioteca, o Macie não suporta os seguintes elementos de padrão:

  • Referências anteriores

  • Capturar grupos

  • Padrões condicionais

  • Código incorporado

  • Sinalizadores de padrões globais, como /i/m, e /x

  • Padrões recursivos

  • Afirmações positivas e negativas de largura zero de retrospectiva e prospectiva, como e ?=, ?!, ?<= e ?<!.

A regex pode conter até 512 caracteres.

Para criar um padrão de regex efetivo para um identificador de dados personalizado, observe as dicas e recomendações a seguir:

  • Use âncoras (^ou$) somente se você espera que o padrão apareça no início ou no final de um arquivo, não no início ou no final de uma linha.

  • Por motivos de desempenho, Macie limita o tamanho dos grupos de repetição limitados. Por exemplo, \d{100,1000} não compilará no Macie. Para aproximar essa funcionalidade, você pode usar uma repetição aberta, como. \d{100,}

  • Para fazer com que partes de um padrão não diferenciem maiúsculas e minúsculas, você pode usar a (?i) construção em vez da /i bandeira.

  • Não há necessidade de otimizar prefixos ou alternâncias manualmente. Por exemplo, mudar /hello|hi|hey/ para /h(?:ello|i|ey)/ não melhorará o desempenho.

  • Por motivos de desempenho, Macie limita o número de curingas repetidos. Por exemplo, a*b*a* não compilará no Macie.

Para se proteger contra expressões malformadas ou de longa duração, o Macie testa automaticamente os padrões de regex em uma coleção de texto de amostra quando você cria um identificador de dados personalizado. Se houver um problema com o regex, o Macie retornará um erro que descreve o problema.

Além do regex, você pode especificar opcionalmente sequências de caracteres e uma regra de proximidade para refinar os resultados.

Palavras chave

Estas são sequências de caracteres específicas que devem estar próximas do texto que corresponde ao padrão regex. Os requisitos de proximidade variam de acordo com o formato de armazenamento ou o tipo de arquivo de um objeto S3:

  • Dados estruturados em colunas — o Macie inclui um resultado se o texto corresponder ao padrão regex e uma palavra-chave estiver no nome do campo ou coluna que armazena o texto, ou se o texto for precedido por e dentro da distância máxima de correspondência de uma palavra-chave no mesmo campo ou valor de célula. Esse é o caso das pastas de trabalho, CSV arquivos e TSV arquivos do Microsoft Excel.

  • Dados estruturados baseados em registros — o Macie inclui um resultado se o texto corresponder ao padrão regex e estiver dentro da distância máxima de correspondência de uma palavra-chave. A palavra-chave pode estar no nome de um elemento no caminho para o campo ou matriz que armazena o texto, ou pode preceder e fazer parte do mesmo valor no campo ou matriz que armazena o texto. Esse é o caso dos contêineres de objetos do Apache Avro, dos arquivos do Apache Parquet, dos arquivos e dos JSON arquivos Lines. JSON

  • Dados não estruturados — o Macie inclui um resultado se o texto corresponder ao padrão regex e for precedido por e dentro da distância máxima de correspondência de uma palavra-chave. Esse é o caso de arquivos Adobe Portable Document Format, documentos do Microsoft Word, mensagens de e-mail e arquivos de texto não binários que não sejamCSV,JSON, JSON Linhas e TSV arquivos. Isso inclui quaisquer dados estruturados, como tabelas, nesses tipos de arquivos.

Você pode especificar até 50 palavras-chave. Cada palavra-chave pode conter de 3 a 90 a 8 caracteresUTF. Palavras-chave não diferenciam maiúsculas de minúsculas.

Distância máxima de partida

Essa é uma regra de proximidade baseada em caracteres para palavras-chave. O Macie usa essa configuração para determinar se uma palavra-chave precede o texto que corresponde ao padrão regex. A configuração define o número máximo de caracteres que podem existir entre o fim de uma palavra-chave completa e o fim do texto que corresponde ao padrão regex. Macie inclui um resultado do texto:

  • Corresponde ao padrão regex,

  • Ocorre após pelo menos uma palavra-chave completa e

  • Ocorre dentro da distância especificada da palavra-chave.

Caso contrário, Macie excluirá o texto dos resultados.

Você pode especificar uma distância de 1 a 300 caracteres. A distância padrão é de 50 caracteres. Para obter melhores resultados, essa distância deve ser maior que o número mínimo de caracteres de texto que o regex foi projetado para detectar. Se apenas parte do texto estiver dentro da distância máxima de correspondência de uma palavra-chave, Macie não a incluirá nos resultados.

Ignorar palavras

Estas são sequências de caracteres específicas a serem excluídas dos resultados. Se o texto corresponder ao padrão regex, mas contiver uma palavra a ser ignorada, o Macie não o incluirá nos resultados.

Você pode especificar até 10 palavras ignoradas. Cada palavra ignorada pode conter de 4 a 90 a 8 caracteresUTF. Palavras ignoradas diferenciam maiúsculas de minúsculas.

nota

É altamente recomendável que você teste e refine seus critérios de detecção antes de salvar um identificador de dados personalizado. Como identificadores de dados personalizados são usados por trabalhos confidenciais de descoberta de dados, não é possível editar um identificador de dados personalizado depois de salvá-lo. Isso ajuda a garantir que você tenha um histórico imutável de descobertas de dados sigilosos e resultados de descoberta para auditorias de privacidade de dados e proteção de dados ou investigações que você realiza.

Você pode testar os critérios de detecção usando o console do Amazon Macie ou o Amazon Macie. API Para testar os critérios usando o console, use as opções na seção Avaliar ao criar o identificador de dados personalizado. Para testar os critérios programaticamente, use a TestCustomDataIdentifieroperação do Amazon Macie. API

Para ver uma demonstração de como as palavras-chave podem ajudar você a encontrar dados confidenciais e evitar falsos positivos, assista ao vídeo a seguir:

Configurações de severidade para descobertas

Ao criar um identificador de dados personalizado, você também pode especificar configurações de severidade personalizadas para descobertas de dados confidenciais que o identificador produz. Por padrão, o Amazon Macie atribui a severidade média a todas as descobertas que um identificador de dados personalizado produz. Se um objeto do S3 contiver pelo menos uma ocorrência de texto que corresponda aos critérios de detecção, o Macie atribuirá automaticamente a severidade Média à descoberta resultante.

Com as configurações de severidade personalizadas, você especifica qual severidade atribuir com base no número de ocorrências de texto que correspondem aos critérios de detecção. Você pode definir limites de ocorrências para até três níveis de severidade: Baixo (menos grave), Médio e Alto (mais grave). Um limite de ocorrências é o número mínimo de correspondências que devem existir em um objeto do S3 para produzir uma descoberta com a gravidade especificada. Se você especificar mais de um limite, os limites deverão estar em ordem crescente por gravidade, passando de Baixo para Alto.

Por exemplo, a imagem a seguir mostra configurações de severidade que especificam três limites de ocorrências, um para cada nível de severidade suportado pelo Macie.

Configurações de severidade que especificam limites de ocorrências para níveis de severidade Baixa, Média e Alta.

A tabela a seguir indica a gravidade das descobertas que o identificador de dados personalizado produz.

Limite de ocorrências Nível de gravidade Resultado
1 Baixo Se um objeto do S3 contiver de 1 a 49 ocorrências de texto que correspondam aos critérios de detecção, a gravidade da descoberta resultante será Baixa.
50 Médio Se um objeto do S3 contiver de 50 a 99 ocorrências de texto que correspondam aos critérios de detecção, a gravidade da descoberta resultante será Média.
100 Alta Se um objeto do S3 contiver 100 ou mais ocorrências de texto que correspondam aos critérios de detecção, a gravidade da descoberta resultante será Alta.

Você também pode usar as configurações de gravidade para especificar se deseja criar uma descoberta. Se um objeto do S3 contiver menos ocorrências do que o limite mais baixo de ocorrências, o Macie não criará uma descoberta.