Mejores prácticas para diseñar e implementar casos de uso de arquitecturas modernas centradas en datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Mejores prácticas para diseñar e implementar casos de uso de arquitecturas modernas centradas en datos

Apoorva Patrikar, Amazon Web Services () AWS

Mayo de 2023 (historial del documento)

Las Organizations se alejan cada vez más de las arquitecturas centradas en las aplicaciones para adoptar arquitecturas centradas en los datos, en las que la infraestructura de TI, el desarrollo de aplicaciones e incluso los procesos empresariales se diseñan en función de los requisitos de datos. En una arquitectura centrada en los datos, los datos son un activo de TI fundamental, y usted diseña sus sistemas y procesos de TI para optimizarlos.

Esta guía ofrece las mejores prácticas para diseñar una arquitectura moderna centrada en los datos para su caso de uso. Puede utilizar estas prácticas recomendadas para modernizar sus canalizaciones de datos y las operaciones de ingeniería de datos que respaldan esa canalización. Esta guía también proporciona una descripción general del ciclo de vida de los datos en una canalización de datos. Al comprender este ciclo de vida, puede crear canalizaciones de datos que optimicen sus datos.

Puede utilizar esta guía para superar los siguientes desafíos a los que se enfrentan muchas organizaciones al diseñar una arquitectura centrada en los datos para las canalizaciones de datos:

  • Aversión a almacenar varias versiones del mismo conjunto de datos: no es raro procesar datos varias veces con frecuencia, pero este enfoque tiene sus limitaciones. De hecho, a menudo requiere menos recursos y es más rentable evitar procesar los datos varias veces. Esta guía le muestra las ventajas de adoptar un enfoque diferente que se centre en almacenar los datos procesados en varias etapas.

  • Reticencia a adoptar los lagos de datos: puede resultar difícil analizar las afirmaciones de marketing en torno a los lagos de datos y también puede resultar difícil determinar si su organización cuenta con las habilidades y los recursos necesarios para incorporar un lago de datos en sus sistemas y procesos de TI. Esta guía puede ayudarlo a comprender cómo un lago de datos puede ser un componente útil en su arquitectura centrada en los datos.

  • Contratar suficientes ingenieros de datos: las tendencias del mercado sugieren que se espera que los científicos de datos realicen tareas de ingeniería de datos en muchas organizaciones, aunque no tengan las habilidades de ingeniería de datos adecuadas. Estas brechas de habilidades pueden tener un impacto en sus time-to-market planes. Esta guía puede ayudarlo a comprender mejor qué habilidades de ingeniería de datos son esenciales para diseñar una arquitectura centrada en los datos.

  • Falta de conocimientos sobre el uso de los servicios de AWS para el procesamiento horizontal: el procesamiento horizontal o distribuido permite que un clúster procese fragmentos de datos en parallel mediante la asignación de tareas a varios nodos y la recopilación del resultado antes de enviarlo de forma transparente al usuario. El paso hacia el procesamiento horizontal representa un cambio en la forma en que se ven y procesan los datos. Este cambio afecta no solo a la lógica de la aplicación o a la aplicación en sí, sino también a la forma en que las organizaciones trabajan con los datos. Por ejemplo, el procesamiento horizontal afecta al almacenamiento central, la distribución de tareas y la modularización. El procesamiento horizontal también favorece los fragmentos de datos más grandes para las operaciones de lectura/escritura. Esta guía explica cómo puede funcionar el procesamiento horizontal para su canalización de datos.