Migrazione dei carichi di lavoro da AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline non è più disponibile per i nuovi clienti. I clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. Ulteriori informazioni

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Migrazione dei carichi di lavoro da AWS Data Pipeline

AWS ha lanciato il AWS Data Pipeline servizio nel 2012. A quel tempo, i clienti cercavano un servizio che li aiutasse a spostare in modo affidabile i dati tra diverse fonti di dati utilizzando una varietà di opzioni di elaborazione. Ora esistono altri servizi che offrono ai clienti un'esperienza migliore. Ad esempio, puoi usare to per eseguire e AWS Glue orchestrare le applicazioni Apache Spark, Step Functions AWS per aiutare a orchestrare i AWS componenti del servizio o Amazon Managed Workflows for Apache Airflow (Amazon MWAA) per gestire l'orchestrazione del flusso di lavoro per Apache Airflow.

Questo argomento spiega come migrare da opzioni alternative. AWS Data Pipeline L'opzione scelta dipende dal carico di lavoro corrente su. AWS Data Pipeline Puoi migrare i casi d'uso tipici AWS Data Pipeline verso AWS Step Functions o Amazon MWAA. AWS Glue

Migrazione dei carichi di lavoro in AWS Glue

AWS Glue è un servizio di integrazione dati serverless che semplifica agli utenti analitici il rilevamento, la preparazione, lo spostamento e l'integrazione di dati da più origini. Include strumenti per la creazione, l'esecuzione di lavori e l'orchestrazione dei flussi di lavoro. Con AWS Glue, puoi scoprire e connetterti a più di 70 diverse fonti di dati e gestire i tuoi dati in un catalogo di dati centralizzato. Puoi creare, eseguire e monitorare visivamente pipeline di estrazione, trasformazione e caricamento (ETL) per caricare dati nei data lake. Inoltre, puoi eseguire ricerche e query immediatamente nei dati catalogati utilizzando Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

Ti consigliamo di migrare il AWS Data Pipeline carico di lavoro a quando: AWS Glue

  • Stai cercando un servizio di integrazione dei dati senza server che supporti varie fonti di dati, interfacce di creazione tra cui editor visivi e notebook e funzionalità avanzate di gestione dei dati come la qualità dei dati e il rilevamento dei dati sensibili.

  • Il carico di lavoro può essere migrato verso AWS Glue flussi di lavoro, job (in Python o Apache Spark) e crawler (ad esempio, la pipeline esistente è costruita su Apache Spark).

  • È necessaria un'unica piattaforma in grado di gestire tutti gli aspetti della pipeline di dati, tra cui l'acquisizione, l'elaborazione, il trasferimento, i test di integrità e i controlli di qualità.

  • La tua pipeline esistente è stata creata da un modello predefinito sulla AWS Data Pipeline console, ad esempio l'esportazione di una tabella DynamoDB in Amazon S3, e stai cercando un modello con lo stesso scopo.

  • Il tuo carico di lavoro non dipende da una specifica applicazione dell'ecosistema Hadoop come Apache Hive.

  • Il tuo carico di lavoro non richiede l'orchestrazione di server locali.

AWS addebita una tariffa oraria, fatturata al secondo, per i crawler (rilevamento dei dati) e i job ETL (elaborazione e caricamento dei dati). AWS Glue Studio è un motore di orchestrazione integrato per AWS Glue le risorse e viene offerto senza costi aggiuntivi. Scopri di più sui prezzi nella AWS Glue sezione Prezzi.

Migrazione dei carichi di lavoro a Step Functions AWS

AWS Step Functions è un servizio di orchestrazione serverless che consente di creare flussi di lavoro per le applicazioni aziendali critiche. Con Step Functions utilizzi un editor visivo per creare flussi di lavoro e integrarli direttamente con oltre 11.000 azioni per oltre 250 AWS servizi, come AWS Lambda, Amazon EMR, DynamoDB e altri. Puoi usare Step Functions per orchestrare le pipeline di elaborazione dei dati, gestire gli errori e lavorare con i limiti di throttling sui servizi sottostanti. AWS È possibile creare flussi di lavoro che elaborano e pubblicano modelli di machine learning, orchestrano microservizi e AWS controllano servizi, ad esempio per creare flussi di lavoro di estrazione, trasformazione e AWS Glue caricamento (ETL). È possibile anche creare flussi di lavoro automatizzati e di lunga durata per applicazioni che richiedono l'interazione umana.

Analogamente AWS Data Pipeline, AWS Step Functions è un servizio completamente gestito fornito da AWS. Non ti verrà richiesto di gestire l'infrastruttura, applicare patch worker, gestire gli aggiornamenti delle versioni del sistema operativo o simili.

Ti consigliamo di migrare il AWS Data Pipeline carico di lavoro a AWS Step Functions quando:

  • Stai cercando un servizio di orchestrazione del flusso di lavoro senza server e ad alta disponibilità.

  • Stai cercando una soluzione conveniente che addebiti una granularità dell'esecuzione di una singola attività.

  • I tuoi carichi di lavoro orchestrano attività per molti altri AWS servizi, come Amazon EMR, Lambda o DynamoDB. AWS Glue

  • Stai cercando una soluzione low-code dotata di un drag-and-drop visual designer per la creazione di flussi di lavoro e che non richieda l'apprendimento di nuovi concetti di programmazione.

  • Stai cercando un servizio che fornisca integrazioni con oltre 250 altri AWS servizi che coprano oltre 11.000 azioni out-of-the-box, oltre a consentire integrazioni con attività e servizi non personalizzati.AWS

AWS Data Pipeline Sia Step Functions che Step Functions utilizzano il formato JSON per definire i flussi di lavoro. Ciò consente di archiviare i flussi di lavoro nel controllo del codice sorgente, gestire le versioni, controllare l'accesso e automatizzare con CI/CD. Step Functions utilizza una sintassi chiamata Amazon State Language che è completamente basata su JSON e consente una transizione senza interruzioni tra le rappresentazioni testuali e visive del flusso di lavoro.

Con Step Functions, puoi scegliere la stessa versione di Amazon EMR in cui utilizzi attualmente. AWS Data Pipeline

Per la migrazione delle attività sulle risorse AWS Data Pipeline gestite, puoi utilizzare l'integrazione dei servizi AWS SDK su Step Functions per automatizzare il provisioning e la pulizia delle risorse.

Per la migrazione delle attività su server locali, istanze EC2 gestite dall'utente o un cluster EMR gestito dall'utente, puoi installare un agente SSM sull'istanza. È possibile avviare il comando tramite AWS Systems Manager Run Command di Step Functions. Puoi anche avviare la macchina a stati dalla pianificazione definita in Amazon EventBridge.

AWS Step Functions ha due tipi di flussi di lavoro: flussi di lavoro standard e flussi di lavoro rapidi. Per i flussi di lavoro standard, l'addebito viene calcolato in base al numero di transizioni di stato necessarie per eseguire l'applicazione. Per Express Workflows, i costi vengono addebitati in base al numero di richieste per il flusso di lavoro e alla sua durata. Scopri di più sui prezzi in AWS Step Functions Pricing.

Migrazione dei carichi di lavoro su Amazon MWAA

Amazon MWAA (Managed Workflows for Apache Airflow) è un servizio di orchestrazione gestito per Apache Airflow che semplifica la configurazione e la gestione di pipeline di dati nel cloud su larga scala. end-to-end Apache Airflow è uno strumento open source utilizzato per creare, pianificare e monitorare in modo programmatico sequenze di processi e attività denominate «flussi di lavoro». Con Amazon MWAA, puoi usare i linguaggi di programmazione Airflow e Python per creare flussi di lavoro senza dover gestire l'infrastruttura sottostante per scalabilità, disponibilità e sicurezza. Amazon MWAA ridimensiona automaticamente la capacità di esecuzione del flusso di lavoro per soddisfare le tue esigenze ed è integrato con i servizi AWS di sicurezza per aiutarti a fornire un accesso rapido e sicuro ai tuoi dati.

Analogamente AWS Data Pipeline, Amazon MWAA è un servizio completamente gestito fornito da. AWS Sebbene sia necessario apprendere diversi nuovi concetti specifici relativi a questi servizi, non è necessario gestire l'infrastruttura, applicare patch worker, gestire gli aggiornamenti delle versioni del sistema operativo o simili.

Ti consigliamo di migrare i AWS Data Pipeline carichi di lavoro su Amazon MWAA quando:

  • Stai cercando un servizio gestito e ad alta disponibilità per orchestrare i flussi di lavoro scritti in Python.

  • Vuoi passare a una tecnologia open source completamente gestita e ampiamente adottata, Apache Airflow, per la massima portabilità.

  • È necessaria un'unica piattaforma in grado di gestire tutti gli aspetti della pipeline di dati, tra cui l'acquisizione, l'elaborazione, il trasferimento, i test di integrità e i controlli di qualità.

  • Stai cercando un servizio progettato per l'orchestrazione della pipeline di dati con funzionalità come un'interfaccia utente avanzata per l'osservabilità, i riavvii per i flussi di lavoro non riusciti, i backfill e i nuovi tentativi di esecuzione delle attività.

  • Stai cercando un servizio che includa più di 800 operatori e sensori predefiniti, che coprano e non coprano servizi. AWS AWS

I flussi di lavoro Amazon MWAA sono definiti come Directed Acyclic Graphs (DAG) utilizzando Python, quindi puoi trattarli anche come codice sorgente. Il framework Python estensibile di Airflow ti consente di creare flussi di lavoro che si connettono praticamente con qualsiasi tecnologia. È dotato di una ricca interfaccia utente per la visualizzazione e il monitoraggio dei flussi di lavoro e può essere facilmente integrato con i sistemi di controllo delle versioni per automatizzare il processo CI/CD.

Con Amazon MWAA, puoi scegliere la stessa versione di Amazon EMR in cui utilizzi attualmente. AWS Data Pipeline

AWS addebita in base al tempo di funzionamento dell'ambiente Airflow e qualsiasi ulteriore scalabilità automatica per fornire maggiore capacità ai dipendenti o ai server Web. Scopri di più sui prezzi in Amazon Managed Workflows for Apache Airflow Pricing.

Mappatura dei concetti

La tabella seguente contiene la mappatura dei concetti principali utilizzati dai servizi. Aiuterà le persone che hanno familiarità con Data Pipeline a comprendere la terminologia Step Functions e MWAA.

Esempi

Nelle sezioni seguenti sono elencati esempi pubblici a cui è possibile fare riferimento per migrare da un servizio AWS Data Pipeline all'altro. È possibile utilizzarli come esempi e creare la propria pipeline sui singoli servizi aggiornandola e testandola in base al proprio caso d'uso.

AWS Glue esempi

L'elenco seguente contiene implementazioni di esempio per i casi AWS Data Pipeline d'uso più comuni con. AWS Glue

AWS Esempi di Step Functions

L'elenco seguente contiene implementazioni di esempio per i AWS Data Pipeline casi d'uso più comuni con Step Functions AWS .

Guarda tutorial aggiuntivi ed esempi di progetti per l'utilizzo di AWS Step Functions.

Esempi di Amazon MWAA

L'elenco seguente contiene implementazioni di esempio per i casi AWS Data Pipeline d'uso più comuni con Amazon MWAA.

Consulta tutorial ed esempi di progetti aggiuntivi per l'uso di Amazon MWAA.