As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Práticas recomendadas para projetar e implementar casos de uso de arquitetura moderna centrada em dados
Apoorva Patrikar, Amazon Web Services () AWS
Maio de 2023 (histórico do documento)
Organizations estão cada vez mais se afastando das arquiteturas centradas em aplicativos para adotar arquiteturas centradas em dados, nas quais a infraestrutura de TI, o desenvolvimento de aplicativos e até mesmo os processos de negócios são projetados de acordo com os requisitos de dados. Em uma arquitetura centrada em dados, os dados são um ativo essencial de TI, e você projeta seus sistemas e processos de TI para otimizar seus dados.
Este guia oferece as melhores práticas para projetar uma arquitetura moderna centrada em dados para seu caso de uso. Você pode usar essas melhores práticas para modernizar seus pipelines de dados e as operações de engenharia de dados que dão suporte a esse pipeline. Este guia também fornece uma visão geral do ciclo de vida dos dados em um pipeline de dados. Ao entender esse ciclo de vida, você pode criar pipelines de dados que otimizam seus dados.
Você pode usar este guia para superar os seguintes desafios que muitas organizações enfrentam ao projetar uma arquitetura centrada em dados para pipelines de dados:
Aversão ao armazenamento de várias versões do mesmo conjunto de dados — Não é incomum processar dados várias vezes com frequência, mas essa abordagem tem suas limitações. Na verdade, geralmente é menos intensivo em recursos e mais econômico evitar o processamento de dados várias vezes. Este guia mostra a vantagem de adotar uma abordagem diferente que se concentra no armazenamento de dados processados em vários estágios.
Relutância em adotar lagos de dados — Pode ser difícil analisar as alegações de marketing sobre lagos de dados e também pode ser difícil descobrir se sua organização tem as habilidades e os recursos necessários para incorporar um data lake em seus sistemas e processos de TI. Este guia pode ajudar você a entender como um data lake pode ser um componente útil em sua arquitetura centrada em dados.
Contratar engenheiros de dados suficientes — As tendências do mercado sugerem que se espera que os cientistas de dados realizem tarefas de engenharia de dados em muitas organizações, mesmo que não tenham as habilidades certas de engenharia de dados. Essas lacunas de habilidades podem ter um impacto em seus time-to-market planos. Este guia pode ajudar você a entender melhor quais habilidades de engenharia de dados são essenciais para projetar uma arquitetura centrada em dados.
Falta de conhecimento sobre o uso dos serviços da AWS para processamento horizontal — O processamento horizontal ou distribuído permite que um cluster processe partes de dados em parallel mapeando tarefas para vários nós e coletando o resultado antes de enviá-lo de forma transparente ao usuário. A mudança em direção ao processamento horizontal representa uma mudança na forma como os dados são visualizados e processados. Essa mudança afeta não apenas a lógica do aplicativo ou o aplicativo em si, mas também a forma como as organizações trabalham com os dados. Por exemplo, o processamento horizontal afeta o armazenamento central, a distribuição de tarefas e a modularização. O processamento horizontal também favorece grandes quantidades de dados para operações de leitura e gravação. Este guia explica como o processamento horizontal pode funcionar em seu pipeline de dados.