Migración de cargas de trabajo desde AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Migración de cargas de trabajo desde AWS Data Pipeline

AWS lanzó el AWS Data Pipeline servicio en 2012. En ese momento, los clientes buscaban un servicio que les ayudara a transferir datos de forma fiable entre diferentes orígenes de datos mediante una variedad de opciones informáticas. Ahora hay otros servicios que ofrecen a los clientes una mejor experiencia de integración de datos. Por ejemplo, puede utilizar AWS Glue to para ejecutar y organizar las aplicaciones de Apache Spark, AWS Step Functions para ayudar a organizar los componentes del AWS servicio o Amazon Managed Workflows for Apache Airflow (Amazon MWAA) para gestionar la organización del flujo de trabajo de Apache Airflow.

En este tema se explica cómo migrar de opciones alternativas a otras. AWS Data Pipeline La opción que elija depende de su carga de trabajo actual en AWS Data Pipeline. Puede migrar los casos de uso típicos AWS Data Pipeline a AWS Step Functions o Amazon MWAA. AWS Glue

Migración de cargas de trabajo a AWS Glue

AWS Glue es un servicio de integración de datos sin servidor que facilita a los usuarios de análisis descubrir, preparar, migrar e integrar datos de varios orígenes. Incluye herramientas para la creación, la ejecución de trabajos y la orquestación de flujos de trabajo. Con AWS Glueél, puede descubrir y conectarse a más de 70 fuentes de datos diferentes y administrar sus datos en un catálogo de datos centralizado. Puede crear, ejecutar y supervisar visualmente canalizaciones de extracción, transformación y carga (ETL) para cargar datos en los lagos de datos. Además, puede buscar y consultar datos catalogados de forma inmediata mediante Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

Recomendamos migrar la AWS Data Pipeline carga de trabajo a una AWS Glue fecha en la que:

  • Está buscando un servicio de integración de datos sin servidor que admita diversos orígenes de datos, interfaces de creación que incluyan editores visuales y cuadernos, y funciones avanzadas de administración de datos, como la calidad de los datos y la detección de datos confidenciales.

  • Tu carga de trabajo se puede migrar a AWS Glue flujos de trabajo, trabajos (en Python o Apache Spark) y rastreadores (por ejemplo, tu canalización actual se basa en Apache Spark).

  • Necesita una plataforma única que pueda gestionar todos los aspectos de su canalización de datos, incluidos la ingesta, el procesamiento, la transferencia, las pruebas de integridad y los controles de calidad.

  • Su canalización existente se creó a partir de una plantilla predefinida en la AWS Data Pipeline consola, como la exportación de una tabla de DynamoDB a Amazon S3, y busca la misma plantilla con el mismo propósito.

  • Su carga de trabajo no depende de una aplicación específica del ecosistema de Hadoop, como Apache Hive.

  • Su carga de trabajo no requiere la orquestación de servidores en las instalaciones.

AWS cobra una tarifa por hora, que se factura por segundo, por los rastreadores (descubrimiento de datos) y los trabajos de ETL (procesamiento y carga de datos). AWS Glue Studio es un motor de organización de AWS Glue recursos integrado y se ofrece sin coste adicional. Para obtener más información sobre precios, consulte Precios de AWS Glue.

Migración de cargas de trabajo a Step Functions AWS

AWS Step Functions es un servicio de organización sin servidor que le permite crear flujos de trabajo para las aplicaciones críticas de su empresa. Con Step Functions, utiliza un editor visual para crear flujos de trabajo e integrarlos directamente con más de 11 000 acciones para más de 250 AWS servicios, como AWS Lambda, Amazon EMR, DynamoDB y más. Puede usar Step Functions para organizar las canalizaciones de procesamiento de datos, gestionar los errores y trabajar con los límites de regulación de los servicios subyacentes. AWS Puede crear flujos de trabajo que procesen y publiquen modelos de aprendizaje automático, organicen microservicios y AWS controlen servicios, por ejemplo, para crear flujos de trabajo de extracción AWS Glue, transformación y carga (ETL). También puede crear flujos de trabajo automatizados y de larga duración para aplicaciones que requieren la interacción humana.

Del mismo modo AWS Data Pipeline, AWS Step Functions es un servicio totalmente gestionado proporcionado por AWS. No se le pedirá que gestione la infraestructura, parchee a los trabajadores, gestione las actualizaciones de la versión del sistema operativo o similares.

Recomendamos migrar la AWS Data Pipeline carga de trabajo a AWS Step Functions cuando:

  • Está buscando un servicio de orquestación de flujos de trabajo sin servidor y de alta disponibilidad.

  • Está buscando una solución rentable que cobre al mismo nivel que la ejecución de una sola tarea.

  • Sus cargas de trabajo organizan tareas para varios otros AWS servicios, como Amazon EMR, Lambda AWS Glue o DynamoDB.

  • Está buscando una solución con poco código que incluya un diseñador drag-and-drop visual para la creación de flujos de trabajo y que no requiera aprender nuevos conceptos de programación.

  • Está buscando un servicio que proporcione integraciones con más de 250 AWS servicios adicionales que abarquen más de 11 000 acciones out-of-the-box, además de permitir integraciones con actividades y no servicios personalizados.AWS

AWS Data Pipeline Tanto Step Functions como Step Functions utilizan el formato JSON para definir los flujos de trabajo. Esto permite almacenar sus flujos de trabajo en el control de código fuente, administrar las versiones, controlar el acceso y automatizarlos con CI/CD. Step Functions utiliza una sintaxis llamada Amazon State Language, que se basa completamente en JSON y permite una transición perfecta entre las representaciones textuales y visuales del flujo de trabajo.

Con Step Functions, puede elegir la misma versión de Amazon EMR que utiliza actualmente en AWS Data Pipeline.

Para migrar actividades en recursos AWS Data Pipeline gestionados, puedes usar la integración AWS del servicio SDK en Step Functions para automatizar el aprovisionamiento y la limpieza de los recursos.

Para migrar actividades en servidores en las instalaciones, instancias de EC2 administradas por el usuario o un clúster EMR administrado por el usuario, puede instalar un agente SSM en la instancia. Puede iniciar el comando mediante AWS Systems Manager Run Command de Step Functions. También puede iniciar la máquina de estados a partir de la programación definida en Amazon EventBridge.

AWS Step Functions tiene dos tipos de flujos de trabajo: flujos de trabajo estándar y flujos de trabajo exprés. En el caso de los flujos de trabajo estándar, se le cobrará en función del número de transiciones de estado necesarias para ejecutar la aplicación. En el caso de los flujos de trabajo exprés, se le cobrará en función del número de solicitudes del flujo de trabajo y de su duración. Obtenga más información sobre los precios en Precios de AWS Step Functions.

Migración de cargas de trabajo a Amazon MWAA

Amazon MWAA (Managed Workflows for Apache Airflow) es un servicio de organización gestionado para Apache Airflow que facilita la configuración y el funcionamiento de las canalizaciones de end-to-end datos en la nube a escala. Apache Airflow es una herramienta de código abierto que se utiliza para crear, programar y supervisar mediante programación secuencias de procesos y tareas denominadas “flujos de trabajo”. Con Amazon MWAA, puede usar el lenguaje de programación Airflow y Python para crear flujos de trabajo sin tener que administrar la infraestructura subyacente para garantizar la escalabilidad, la disponibilidad y la seguridad. Amazon MWAA escala automáticamente su capacidad de ejecución del flujo de trabajo para satisfacer sus necesidades y está integrado con los servicios de AWS seguridad para ayudarle a proporcionarle un acceso rápido y seguro a sus datos.

Del mismo modo AWS Data Pipeline, Amazon MWAA son servicios totalmente gestionados proporcionados por. AWS Si bien necesita aprender varios conceptos nuevos específicos de estos servicios, no es necesario que administre la infraestructura, aplique parches a los trabajadores, administre las actualizaciones de las versiones del sistema operativo o algo similar.

Recomendamos migrar las AWS Data Pipeline cargas de trabajo a Amazon MWAA cuando:

  • Está buscando un servicio gestionado y de alta disponibilidad para orquestar flujos de trabajo escritos en Python.

  • Desea realizar la transición a una tecnología de código abierto totalmente gestionada y ampliamente adoptada, Apache Airflow, para lograr la máxima portabilidad.

  • Necesita una plataforma única que pueda gestionar todos los aspectos de su canalización de datos, incluidos la ingesta, el procesamiento, la transferencia, las pruebas de integridad y los controles de calidad.

  • Está buscando un servicio diseñado para orquestar la canalización de datos con funciones como una interfaz de usuario completa para facilitar la observabilidad, reinicios en caso de flujos de trabajo fallidos, recargas y reintentos de tareas.

  • Está buscando un servicio que incluya más de 800 operadores y sensores prediseñados, que abarquen AWS tanto los servicios como los que no sean de servicio.AWS

Los flujos de trabajo de Amazon MWAA se definen como gráficos acíclicos dirigidos (Directed Acyclic Graphs, DAG) que utilizan Python, por lo que también puede tratarlos como código fuente. El marco extensible de Python de Airflow le permite crear flujos de trabajo que se conecten con prácticamente cualquier tecnología. Viene con una interfaz de usuario completa para ver y monitorear los flujos de trabajo y se puede integrar fácilmente con los sistemas de control de versiones para automatizar el proceso de CI/CD.

Con Amazon MWAA, puede elegir la misma versión de Amazon EMR que utiliza actualmente en AWS Data Pipeline.

AWS cobra por el tiempo de funcionamiento de su entorno de Airflow más cualquier escalado automático adicional para proporcionar más capacidad de trabajadores o servidores web. Obtenga más información sobre los precios en Precios de Amazon Managed Workflows para Apache Airflow.

Mapeo de conceptos

La siguiente tabla contiene un mapeo de los principales conceptos utilizados por los servicios. Ayudará a las personas familiarizadas con Data Pipeline a entender la terminología de Step Functions y MWAA.

Muestras

En las siguientes secciones se enumeran ejemplos públicos a los que puede hacer referencia para migrar AWS Data Pipeline a servicios individuales. Puede utilizarlos como ejemplos y crear su propia canalización a partir de los servicios individuales actualizándolos y probándolos en función de su caso de uso.

AWS Glue muestras

La siguiente lista contiene ejemplos de implementaciones para los casos de AWS Data Pipeline uso más comunes con. AWS Glue

AWS Ejemplos de Step Functions

La siguiente lista contiene ejemplos de implementaciones para los AWS Data Pipeline casos de uso más comunes con Step Functions AWS .

Consulta tutoriales adicionales y ejemplos de proyectos para usar AWS Step Functions.

Muestras de Amazon MWAA

La siguiente lista contiene ejemplos de implementaciones para los casos de AWS Data Pipeline uso más comunes con Amazon MWAA.

Consulte tutoriales adicionales y ejemplos de proyectos para usar Amazon MWAA.