AWS Data Pipeline não está mais disponível para novos clientes. Clientes existentes da AWS Data Pipeline pode continuar usando o serviço normalmente. Saiba mais
As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Migrando cargas de trabalho do AWS Data Pipeline
AWS lançou o AWS Data Pipeline serviço em 2012. Naquela época, os clientes procuravam um serviço que os ajudasse a mover dados de forma confiável entre diferentes fontes de dados usando uma variedade de opções de computação. Agora, existem outros serviços que oferecem aos clientes uma experiência melhor. Por exemplo, você pode usar AWS Glue to para executar e orquestrar aplicativos Apache Spark, Step AWS Functions para ajudar a orquestrar AWS componentes de serviço ou Amazon Managed Workflows for Apache Airflow (Amazon MWAA) para ajudar a gerenciar a orquestração do fluxo de trabalho para o Apache Airflow.
Este tópico explica como AWS Data Pipeline migrar das opções alternativas. A opção escolhida depende de sua workload atual em AWS Data Pipeline. Você pode migrar casos de uso típicos AWS Data Pipeline para AWS Step Functions ou Amazon MWAA. AWS Glue
Migração de cargas de trabalho para AWS Glue
O AWS Glue
Recomendamos migrar sua AWS Data Pipeline carga de trabalho para AWS Glue quando:
Você estiver procurando um serviço de integração de dados com tecnologia sem servidor que ofereça suporte para várias fontes de dados, interfaces de criação, incluindo editores visuais e notebooks, e recursos avançados de gerenciamento de dados, como qualidade de dados e detecção de dados sensíveis.
Sua carga de trabalho pode ser migrada para AWS Glue fluxos de trabalho, trabalhos (em Python ou Apache Spark) e rastreadores (por exemplo, seu pipeline existente é construído com base no Apache Spark).
Você precisar de uma plataforma única que possa lidar com todos os aspectos do seu pipeline de dados, incluindo ingestão, processamento, transferência, testes de integridade e verificações de qualidade.
Seu pipeline existente foi criado a partir de um modelo predefinido no AWS Data Pipeline console, como a exportação de uma tabela do DynamoDB para o Amazon S3, e você está procurando o mesmo modelo de propósito.
Seu workload não depender de uma aplicação específica do ecossistema Hadoop, como o Apache Hive.
Seu workload não exigir orquestração de servidores on-premises.
AWS cobra uma taxa horária, cobrada por segundo, para rastreadores (descoberta de dados) e tarefas de ETL (processamento e carregamento de dados). AWS Glue O Studio é um mecanismo de orquestração integrado para AWS Glue recursos e é oferecido sem custo adicional. Para saber mais sobre a definição de preço, consulte Definição de preço da AWS Glue
Migração de cargas de trabalho para AWS Step Functions
AWS O Step Functions
Da mesma forma AWS Data Pipeline, o AWS Step Functions é um serviço totalmente gerenciado fornecido pela AWS. Você não precisará gerenciar a infraestrutura, aplicar patches em workers, gerenciar atualizações da versão do sistema operacional ou similares.
Recomendamos migrar sua AWS Data Pipeline carga de trabalho para o AWS Step Functions quando:
Você estiver procurando um serviço de orquestração de fluxo de trabalho com tecnologia sem servidor e altamente disponível.
Você estiver procurando uma solução econômica que faça a cobrança pela granularidade da execução de uma única tarefa.
Suas cargas de trabalho estão orquestrando tarefas para vários outros AWS serviços, como Amazon EMR, Lambda ou DynamoDB. AWS Glue
Você está procurando uma solução low-code que venha com um designer drag-and-drop visual para criação de fluxo de trabalho e que não exija o aprendizado de novos conceitos de programação.
Você está procurando um serviço que forneça integrações com mais de 250 outros AWS serviços cobrindo mais de 11.000 ações out-of-the-box, além de permitir integrações com atividades e não AWS serviços personalizados.
AWS Data Pipeline Tanto o Step Functions quanto o Step Functions usam o formato JSON para definir fluxos de trabalho. Isso permite armazenar seus fluxos de trabalho no controle de origem, gerenciar versões, controlar o acesso e automatizar com CI/CD. O Step Functions está usando uma sintaxe chamada Amazon State Language, que é totalmente baseada em JSON e permite uma transição perfeita entre as representações textuais e visuais do fluxo de trabalho.
Com o Step Functions, você pode escolher a mesma versão do Amazon EMR que você está usando atualmente no AWS Data Pipeline.
Para migrar atividades em recursos AWS Data Pipeline gerenciados, você pode usar a integração de serviços AWS SDK no Step Functions para automatizar o provisionamento e a limpeza de recursos.
Para migrar atividades em servidores on-premises, instâncias do EC2 gerenciadas pelo usuário ou um cluster do EMR gerenciado pelo usuário, você pode instalar um agente SSM na instância. Você pode iniciar o comando por meio do Run Command do AWS Systems Manager a partir do Step Functions. Você também pode iniciar a máquina de estado a partir da programação definida na Amazon EventBridge
AWS O Step Functions tem dois tipos de fluxos de trabalho: fluxos de trabalho padrão e fluxos de trabalho expressos. Para fluxos de trabalho padrão, a cobrança é efetuada com base no número de transições de estado necessárias para executar sua aplicação. Para fluxos de trabalho expressos, a cobrança é efetuada com base no número de solicitações do seu fluxo de trabalho e na duração. Saiba mais sobre preços em Definição de preços do AWS Step Functions
Migrar workloads para o Amazon MWAA
O Amazon MWAA
Da mesma forma AWS Data Pipeline, o Amazon MWAA é um serviço totalmente gerenciado fornecido pela. AWS Embora seja necessário aprender vários novos conceitos específicos desses serviços, não é necessário gerenciar a infraestrutura, aplicar patches em workers, gerenciar atualizações de versões do sistema operacional ou similares.
Recomendamos migrar suas AWS Data Pipeline cargas de trabalho para o Amazon MWAA quando:
Você estiver procurando um serviço gerenciado e altamente disponível para orquestrar fluxos de trabalho escritos em Python.
Você desejar fazer a transição para uma tecnologia de código aberto totalmente gerenciada e amplamente adotada, como o Apache Airflow, para máxima portabilidade.
Você precisar de uma plataforma única que possa lidar com todos os aspectos do seu pipeline de dados, incluindo ingestão, processamento, transferência, testes de integridade e verificações de qualidade.
Você estiver procurando um serviço projetado para orquestração de pipeline de dados com recursos como interface avançada para observabilidade, reinicializações para fluxos de trabalho com falha, preenchimentos e novas tentativas de tarefas.
Você está procurando um serviço que venha com mais de 800 operadores e sensores pré-construídos, AWS abrangendo e não AWS serviços.
Os fluxos de trabalho do Amazon MWAA são definidos como Directed Acyclic Graphs (DAGs – Gráficos acíclicos dirigidos) usando Python, então você também pode tratá-los como código-fonte. A estrutura Python extensível do Airflow permite que você crie fluxos de trabalho conectados a praticamente qualquer tecnologia. Ele vem com uma interface de usuário avançada para visualizar e monitorar fluxos de trabalho e pode ser facilmente integrado aos sistemas de controle de versão para automatizar o processo de CI/CD.
Com o Amazon MWAA, você pode escolher a mesma versão do Amazon EMR que você está usando atualmente na AWS Data Pipeline.
AWS cobranças pelo tempo em que seu ambiente Airflow é executado, além de qualquer escalonamento automático adicional para fornecer mais capacidade de trabalho ou servidor web. Saiba mais sobre preços no Fluxos de trabalho gerenciados da Amazon para o Apache Airflow
Mapear conceitos
A tabela a seguir contém o mapeamento dos principais conceitos usados pelos serviços. Isso ajudará aqueles familiarizados com o Data Pipeline a entender a terminologia do Step Functions e do MWAA.
Data Pipeline | União | Step Functions | Amazon MWAA |
---|---|---|---|
Pipelines | Fluxos de trabalho | Fluxos de trabalho | Direct acylic graphs |
Definição de pipeline em JSON | Definição de fluxo de trabalho ou esquemas baseados em Python | Amazon State Language em JSON | Baseado em Python |
Atividades | Trabalhos | Estados e tarefas | Tarefas |
Instâncias | Execuções de trabalhos | Execuções | Executado por DAG |
Attempts | Novo attempt | Catchers e retriers | Retries |
Cronograma do pipeline | Trigger programado | EventBridge Tarefas do agendador | Cron |
Expressões e funções de pipeline | Biblioteca de esquema | Funções intrínsecas do Step Functions e Lambda AWS | Estrutura Python extensível |
Amostras
As seções a seguir listam exemplos públicos que você pode consultar para AWS Data Pipeline migrar de serviços individuais. Você pode citá-los como exemplos e criar seu próprio pipeline nos serviços individuais atualizando e testando o pipeline com base no seu caso de uso.
AWS Glue amostras
A lista a seguir contém exemplos de implementações para os casos de AWS Data Pipeline uso mais comuns com. AWS Glue
Copiar dados do JDBC para o Amazon S3
(incluindo o Amazon Redshift) Copiar dados do Amazon S3 para o JDBC
(incluindo o Amazon Redshift)
AWS Exemplos de Step Functions
A lista a seguir contém exemplos de implementações para os AWS Data Pipeline casos de uso mais comuns com Step Functions AWS .
Executar um trabalho de processamento de dados no Amazon EMR Serverless
Consultando grandes conjuntos de dados (Amazon Athena, Amazon S3,) AWS Glue
Veja tutoriais adicionais e exemplos de projetos para usar o AWS Step Functions.
Amostras do Amazon MWAA
A lista a seguir contém exemplos de implementações para os casos de AWS Data Pipeline uso mais comuns com o Amazon MWAA.
Veja tutoriais adicionais e exemplos de projetos para usar o Amazon MWAA.