Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Procedure ottimali per la progettazione e l'implementazione di casi d'uso di un'architettura moderna incentrata sui dati
Sostieni Patrikar, Amazon Web Services () AWS
Maggio 2023 (storia dei documenti)
Organizations si stanno allontanando sempre più da architetture incentrate sulle applicazioni per adottare architetture incentrate sui dati in cui l'infrastruttura IT, lo sviluppo delle applicazioni e persino i processi aziendali sono progettati in base ai requisiti dei dati. In un'architettura incentrata sui dati, i dati sono una risorsa IT fondamentale e si progettano sistemi e processi IT per ottimizzare i dati.
Questa guida offre le migliori pratiche per progettare un'architettura moderna incentrata sui dati per ogni caso d'uso. Puoi utilizzare queste best practice per modernizzare le tue pipeline di dati e le operazioni di ingegneria dei dati che supportano quella pipeline. Questa guida fornisce anche una panoramica del ciclo di vita dei dati in una pipeline di dati. Comprendendo questo ciclo di vita, puoi creare pipeline di dati che ottimizzano i tuoi dati.
Puoi usare questa guida per superare le seguenti sfide che molte organizzazioni devono affrontare quando progettano un'architettura incentrata sui dati per le pipeline di dati:
Avversione all'archiviazione di più versioni dello stesso set di dati: non è raro elaborare spesso i dati più volte, ma questo approccio ha i suoi limiti. In effetti, spesso è meno dispendioso in termini di risorse e più conveniente evitare di elaborare i dati più volte. Questa guida mostra i vantaggi di adottare un approccio diverso che si concentra sull'archiviazione dei dati elaborati in più fasi.
Riluttanza ad abbracciare i data lake: può essere difficile esaminare le affermazioni di marketing relative ai data lake e può anche essere difficile capire se la propria organizzazione dispone delle competenze e delle risorse necessarie per incorporare un data lake nei sistemi e nei processi IT. Questa guida può aiutarti a capire in che modo un data lake può essere un componente utile nella tua architettura incentrata sui dati.
Assunzione di un numero sufficiente di ingegneri dei dati: le tendenze del mercato suggeriscono che ci si aspetta che i data scientist svolgano attività di ingegneria dei dati in molte organizzazioni anche se non hanno le giuste competenze di ingegneria dei dati. Queste lacune nelle competenze possono avere un impatto sui tuoi time-to-market piani. Questa guida può aiutarti a capire meglio quali competenze di ingegneria dei dati sono essenziali per progettare un'architettura incentrata sui dati.
Mancanza di conoscenza sull'uso dei servizi AWS per l'elaborazione orizzontale: l'elaborazione orizzontale o distribuita consente a un cluster di elaborare blocchi di dati in parallel mappando le attività su più nodi e raccogliendo i risultati prima di inviarli in modo trasparente all'utente. Il passaggio all'elaborazione orizzontale rappresenta un cambiamento nel modo in cui i dati vengono visualizzati ed elaborati. Questo cambiamento riguarda non solo la logica dell'applicazione o l'applicazione stessa, ma anche il modo in cui le organizzazioni lavorano con i dati. Ad esempio, l'elaborazione orizzontale influisce sull'archiviazione centrale, sulla distribuzione delle attività e sulla modularizzazione. L'elaborazione orizzontale favorisce anche blocchi di dati più grandi per le operazioni di lettura-scrittura. Questa guida spiega come l'elaborazione orizzontale può funzionare per la tua pipeline di dati.