Migração de cargas de trabalho para AWS Glue Migração de cargas de trabalho para AWS Step Functions Migrar workloads para o Amazon MWAA Mapear conceitos Amostras

Migração de cargas de trabalho do AWS Data Pipeline

AWS lançou o AWS Data Pipeline serviço em 2012. Naquela época, os clientes procuravam um serviço que os ajudasse a mover dados de forma confiável entre diferentes fontes de dados usando uma variedade de opções de computação. Agora, existem outros serviços que oferecem aos clientes uma experiência melhor. Por exemplo, você pode usar AWS Glue to para executar e orquestrar aplicativos Apache Spark, Step AWS Functions para ajudar a orquestrar AWS componentes de serviço ou Amazon Managed Workflows for Apache Airflow (Amazon MWAA) para ajudar a gerenciar a orquestração do fluxo de trabalho para o Apache Airflow.

Este tópico explica como AWS Data Pipeline migrar das opções alternativas. A opção escolhida depende de sua workload atual em AWS Data Pipeline. Você pode migrar casos de uso típicos AWS Data Pipeline para AWS Step Functions ou Amazon MWAA. AWS Glue

Migração de cargas de trabalho para AWS Glue

O AWS Glue é um serviço de integração de dados com tecnologia sem servidor que facilita aos usuários de analytics a descoberta, preparação, transferência e integração de dados de várias fontes. Inclui ferramentas para criação, execução de trabalhos e orquestração de fluxos de trabalho. Com AWS Glue, você pode descobrir e se conectar a mais de 70 fontes de dados diversas e gerenciar seus dados em um catálogo de dados centralizado. Você pode criar, executar e monitorar visualmente pipelines de extração, transformação e carregamento (ETL) para carregar dados em seus data lakes. Além disso, é possível pesquisar e consultar imediatamente os dados catalogados usando o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum.

Recomendamos migrar sua AWS Data Pipeline carga de trabalho para AWS Glue quando:

Você estiver procurando um serviço de integração de dados com tecnologia sem servidor que ofereça suporte para várias fontes de dados, interfaces de criação, incluindo editores visuais e notebooks, e recursos avançados de gerenciamento de dados, como qualidade de dados e detecção de dados sensíveis.
Sua carga de trabalho pode ser migrada para AWS Glue fluxos de trabalho, trabalhos (em Python ou Apache Spark) e rastreadores (por exemplo, seu pipeline existente é construído com base no Apache Spark).
Você precisar de uma plataforma única que possa lidar com todos os aspectos do seu pipeline de dados, incluindo ingestão, processamento, transferência, testes de integridade e verificações de qualidade.
Seu pipeline existente foi criado a partir de um modelo predefinido no AWS Data Pipeline console, como a exportação de uma tabela do DynamoDB para o Amazon S3, e você está procurando o mesmo modelo de propósito.
Seu workload não depender de uma aplicação específica do ecossistema Hadoop, como o Apache Hive.
Seu workload não exigir orquestração de servidores on-premises.

AWS cobra uma taxa horária, cobrada por segundo, para rastreadores (descoberta de dados) e tarefas de ETL (processamento e carregamento de dados). AWS Glue O Studio é um mecanismo de orquestração integrado para AWS Glue recursos e é oferecido sem custo adicional. Para saber mais sobre a definição de preço, consulte Definição de preço da AWS Glue.

Migração de cargas de trabalho para AWS Step Functions

AWS O Step Functions é um serviço de orquestração sem servidor que permite criar fluxos de trabalho para seus aplicativos essenciais aos negócios. Com o Step Functions, você usa um editor visual para criar fluxos de trabalho e integrar-se diretamente a mais de 11.000 ações para mais de 250 AWS serviços, como AWS Lambda, Amazon EMR, DynamoDB e muito mais. Você pode usar o Step Functions para orquestrar pipelines de processamento de dados, lidar com erros e trabalhar com os limites de limitação nos serviços subjacentes. AWS Você pode criar fluxos de trabalho que processam e publicam modelos de aprendizado de máquina, orquestram microsserviços e controlam AWS serviços, como AWS Glue criar fluxos de trabalho de extração, transformação e carregamento (ETL). Você também pode criar fluxos de trabalho automatizados e de longa duração para aplicações que exigem interação humana.

Da mesma forma AWS Data Pipeline, o AWS Step Functions é um serviço totalmente gerenciado fornecido pela AWS. Você não precisará gerenciar a infraestrutura, aplicar patches em workers, gerenciar atualizações da versão do sistema operacional ou similares.

Recomendamos migrar sua AWS Data Pipeline carga de trabalho para o AWS Step Functions quando:

Você estiver procurando um serviço de orquestração de fluxo de trabalho com tecnologia sem servidor e altamente disponível.
Você estiver procurando uma solução econômica que faça a cobrança pela granularidade da execução de uma única tarefa.
Suas cargas de trabalho estão orquestrando tarefas para vários outros AWS serviços, como Amazon EMR, Lambda ou DynamoDB. AWS Glue
Você está procurando uma solução low-code que venha com um designer drag-and-drop visual para criação de fluxo de trabalho e que não exija o aprendizado de novos conceitos de programação.
Você está procurando um serviço que forneça integrações com mais de 250 outros AWS serviços cobrindo mais de 11.000 ações out-of-the-box, além de permitir integrações com atividades e não AWS serviços personalizados.

AWS Data Pipeline Tanto o Step Functions quanto o Step Functions usam o formato JSON para definir fluxos de trabalho. Isso permite armazenar seus fluxos de trabalho no controle de origem, gerenciar versões, controlar o acesso e automatizar com CI/CD. O Step Functions está usando uma sintaxe chamada Amazon State Language, que é totalmente baseada em JSON e permite uma transição perfeita entre as representações textuais e visuais do fluxo de trabalho.

Com o Step Functions, você pode escolher a mesma versão do Amazon EMR que você está usando atualmente no AWS Data Pipeline.

Para migrar atividades em recursos AWS Data Pipeline gerenciados, você pode usar a integração de serviços AWS SDK no Step Functions para automatizar o provisionamento e a limpeza de recursos.

Para migrar atividades em servidores locais, EC2 instâncias gerenciadas pelo usuário ou um cluster EMR gerenciado pelo usuário, você pode instalar um agente SSM na instância. Você pode iniciar o comando por meio do Run Command do AWS Systems Manager a partir do Step Functions. Você também pode iniciar a máquina de estado a partir da programação definida na Amazon EventBridge.

AWS O Step Functions tem dois tipos de fluxos de trabalho: fluxos de trabalho padrão e fluxos de trabalho expressos. Para fluxos de trabalho padrão, a cobrança é efetuada com base no número de transições de estado necessárias para executar sua aplicação. Para fluxos de trabalho expressos, a cobrança é efetuada com base no número de solicitações do seu fluxo de trabalho e na duração. Saiba mais sobre preços em Definição de preços do AWS Step Functions.

Migrar workloads para o Amazon MWAA

O Amazon MWAA (Managed Workflows for Apache Airflow) é um serviço gerenciado de orquestração para o Apache Airflow que facilita a configuração e a operação de pipelines de dados na nuvem em grande escala. end-to-end O Apache Airflow é uma ferramenta de código aberto usada para criar, agendar e monitorar por meio de programação sequências de processos e tarefas chamadas de “fluxos de trabalho”. Com o Amazon MWAA, você pode usar o Airflow e a linguagem de programação Python para criar fluxos de trabalho sem precisar gerenciar a infraestrutura subjacente para fins de escalabilidade, disponibilidade e segurança. O Amazon MWAA escala automaticamente sua capacidade de execução de fluxo de trabalho para atender às suas necessidades e é integrado aos serviços de AWS segurança para ajudar a fornecer acesso rápido e seguro aos seus dados.

Da mesma forma AWS Data Pipeline, o Amazon MWAA é um serviço totalmente gerenciado fornecido pela. AWS Embora seja necessário aprender vários novos conceitos específicos desses serviços, não é necessário gerenciar a infraestrutura, aplicar patches em workers, gerenciar atualizações de versões do sistema operacional ou similares.

Recomendamos migrar suas AWS Data Pipeline cargas de trabalho para o Amazon MWAA quando:

Você estiver procurando um serviço gerenciado e altamente disponível para orquestrar fluxos de trabalho escritos em Python.
Você desejar fazer a transição para uma tecnologia de código aberto totalmente gerenciada e amplamente adotada, como o Apache Airflow, para máxima portabilidade.
Você precisar de uma plataforma única que possa lidar com todos os aspectos do seu pipeline de dados, incluindo ingestão, processamento, transferência, testes de integridade e verificações de qualidade.
Você estiver procurando um serviço projetado para orquestração de pipeline de dados com recursos como interface avançada para observabilidade, reinicializações para fluxos de trabalho com falha, preenchimentos e novas tentativas de tarefas.
Você está procurando um serviço que venha com mais de 800 operadores e sensores pré-construídos, AWS abrangendo e não AWS serviços.

Os fluxos de trabalho do Amazon MWAA são definidos como Directed Acyclic Graphs () DAGs usando Python, então você também pode tratá-los como código-fonte. A estrutura Python extensível do Airflow permite que você crie fluxos de trabalho conectados a praticamente qualquer tecnologia. Ele vem com uma interface de usuário avançada para visualizar e monitorar fluxos de trabalho e pode ser facilmente integrado aos sistemas de controle de versão para automatizar o processo de CI/CD.

Com o Amazon MWAA, você pode escolher a mesma versão do Amazon EMR que você está usando atualmente na AWS Data Pipeline.

AWS cobranças pelo tempo em que seu ambiente Airflow é executado, além de qualquer escalonamento automático adicional para fornecer mais capacidade de trabalho ou servidor web. Saiba mais sobre preços no Fluxos de trabalho gerenciados da Amazon para o Apache Airflow.

Mapear conceitos

A tabela a seguir contém o mapeamento dos principais conceitos usados pelos serviços. Isso ajudará aqueles familiarizados com o Data Pipeline a entender a terminologia do Step Functions e do MWAA.

Data Pipeline	União	Step Functions	Amazon MWAA
Pipelines	Fluxos de trabalho	Fluxos de trabalho	Direct acylic graphs
Definição de pipeline em JSON	Definição de fluxo de trabalho ou esquemas baseados em Python	Amazon State Language em JSON	Baseado em Python
Atividades	Trabalhos	Estados e tarefas	Tarefas (operadores e sensores)
Instâncias	Execuções de trabalhos	Execuções	Executado por DAG
Attempts	Novo attempt	Catchers e retriers	Retries
Cronograma do pipeline	Trigger programado	EventBridge Tarefas do agendador	Cron, timetables e data-aware
Expressões e funções de pipeline	Biblioteca de esquema	Funções intrínsecas do Step Functions e Lambda AWS	Estrutura Python extensível

Amostras

As seções a seguir listam exemplos públicos que você pode consultar para AWS Data Pipeline migrar de serviços individuais. Você pode citá-los como exemplos e criar seu próprio pipeline nos serviços individuais atualizando e testando o pipeline com base no seu caso de uso.

AWS Glue amostras

A lista a seguir contém exemplos de implementações para os casos de AWS Data Pipeline uso mais comuns com. AWS Glue

Execução de trabalhos do Spark
Copiar dados do JDBC para o Amazon S3 (incluindo o Amazon Redshift)
Copiar dados do Amazon S3 para o JDBC (incluindo o Amazon Redshift)
Copiar dados do Amazon S3 para o DynamoDB
Importar e exportar dados do Amazon Redshift
Acesso a tabelas do DynamoDB entre contas e entre regiões

AWS Exemplos de Step Functions

A lista a seguir contém exemplos de implementações para os AWS Data Pipeline casos de uso mais comuns com Step Functions AWS .

Veja tutoriais adicionais e exemplos de projetos para usar o AWS Step Functions.

Amostras do Amazon MWAA

A lista a seguir contém exemplos de implementações para os casos de AWS Data Pipeline uso mais comuns com o Amazon MWAA.

Veja tutoriais adicionais e exemplos de projetos para usar o Amazon MWAA.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

O que AWS Data Pipelineé

Serviços relacionados