Manificar dados confidenciais - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Manificar dados confidenciais

Normalmente, dados confidenciais contêm PII ou informações confidenciais que devem ser protegidas por motivos legais ou de conformidade. Se a criptografia for necessária somente em um nível de linha ou coluna, recomendamos que você use uma camada de landing zone. Esses são dados parcialmente confidenciais.

No entanto, se todo o conjunto de dados for considerado confidencial, recomendamos usar buckets separados do Simple Storage Service (Amazon S3) para conter os dados. Esses são dados altamente confidenciais. Esses buckets S3 separados devem ser usados para cada camada de dados e “confidenciais” devem ser incluídos no nome do bucket. Recomendamos que você criptografe buckets confidenciais com AWS Key Management Service(AWS KMS) usando a criptografia do lado do cliente. Você também deve usar a criptografia do lado do cliente para criptografar asAWS Glue tarefas que transformam seus dados.

Usando uma zona de aterrissagem para mascarar dados confidenciais

Você pode usar uma camada de landing zone para conjuntos de dados parcialmente confidenciais (por exemplo, se a criptografia for necessária somente no nível da linha ou da coluna). Esses dados são ingeridos no bucket S3 da zona de pouso e, em seguida, mascarados. Depois que os dados forem mascarados, eles serão ingeridos no bucket do S3, que será criptografado com criptografia no lado do servidor com chaves gerenciadas pelo Amazon S3 (SSE-S3). Se necessário, você pode marcar dados no nível do objeto.

Qualquer dado que já esteja mascarado pode contornar a landing zone e ser ingerido diretamente no bucket S3 da camada bruta. Há dois níveis de acesso nas camadas de estágio e de análise para conjuntos de dados parcialmente confidenciais; um nível tem acesso total a todos os dados e o outro nível só tem acesso a linhas e colunas não confidenciais.

O diagrama a seguir mostra um data lake em que conjuntos de dados parcialmente confidenciais usam uma landing zone para mascarar os dados confidenciais, mas os conjuntos de dados altamente confidenciais usam buckets S3 separados e criptografados. A landing zone é isolada usando políticas restritivas de bucket do IAM e do S3, e os buckets criptografados usam criptografia do lado do cliente comAWS KMS.

O fluxo do processo mostra um data lake em que conjuntos de dados parcialmente confidenciais usam uma landing zone para mascarar os dados confidenciais, mas conjuntos de dados altamente confidenciais usam buckets S3 separados e criptografados. A landing zone é isolada usando políticas restritivas de bucket do IAM e do S3, e os buckets criptografados usam criptografia do lado do cliente comAWS KMS.

O diagrama mostra o seguinte fluxo de trabalho:

  1. Dados altamente confidenciais são enviados para um bucket criptografado do S3 na camada de dados brutos.

  2. UmAWS Glue trabalho valida e transforma os dados em um formato pronto para consumo e, em seguida, coloca o arquivo em um bucket criptografado do S3 na camada de palco.

  3. UmAWS Glue trabalho agrega dados de acordo com os requisitos de negócios e os coloca em um bucket criptografado do S3 na camada de análise.

  4. Dados parcialmente confidenciais são enviados para o balde da zona de aterrissagem.

  5. Linhas e colunas confidenciais são mascaradas e os dados são enviados para o bucket do S3 na camada bruta.

  6. Os dados não confidenciais são enviados diretamente para o bucket do S3 na camada bruta.

  7. UmaAWS Glue tarefa valida e transforma os dados em um formato pronto para consumo e coloca os arquivos no bucket do S3 para a camada de palco.

  8. UmAWS Glue trabalho agrega os dados de acordo com os requisitos da sua organização e coloca os dados em um bucket do S3 na camada de análise.