Migrasi beban kerja dari AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline tidak lagi tersedia untuk pelanggan baru. Pelanggan yang sudah ada AWS Data Pipeline dapat terus menggunakan layanan seperti biasa. Pelajari selengkapnya

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Migrasi beban kerja dari AWS Data Pipeline

AWS meluncurkan AWS Data Pipeline layanan pada tahun 2012. Pada saat itu, pelanggan mencari layanan untuk membantu mereka memindahkan data dengan andal antara sumber data yang berbeda menggunakan berbagai opsi komputasi. Sekarang, ada layanan lain yang menawarkan pelanggan pengalaman yang lebih baik. Misalnya, Anda dapat menggunakan AWS Glue to untuk menjalankan dan mengatur aplikasi Apache Spark, Step Functions AWS untuk membantu mengatur komponen AWS layanan, atau Amazon Managed Workflows for Apache Airflow (Amazon MWAA) untuk membantu mengelola orkestrasi alur kerja untuk Apache Airflow.

Topik ini menjelaskan cara bermigrasi dari AWS Data Pipeline ke opsi alternatif. Opsi yang Anda pilih tergantung pada beban kerja Anda saat ini. AWS Data Pipeline Anda dapat memigrasikan kasus penggunaan umum AWS Data Pipeline ke salah satu AWS Glue, AWS Step Functions, atau Amazon MWAA.

Migrasi beban kerja ke AWS Glue

AWS Glueadalah layanan integrasi data tanpa server yang memudahkan pengguna analitik untuk menemukan, menyiapkan, memindahkan, dan mengintegrasikan data dari berbagai sumber. Ini termasuk perkakas untuk menulis, menjalankan pekerjaan, dan mengatur alur kerja. Dengan AWS Glue, Anda dapat menemukan dan terhubung ke lebih dari 70 sumber data yang beragam dan mengelola data Anda dalam katalog data terpusat. Anda dapat membuat, menjalankan, dan memantau pipeline ekstrak, mengubah, dan memuat (ETL) secara visual untuk memuat data ke dalam data lake Anda. Selain itu, Anda dapat segera mencari dan menanyakan data katalog menggunakan Amazon Athena, Amazon EMR, dan Amazon Redshift Spectrum.

Kami merekomendasikan untuk memigrasikan AWS Data Pipeline beban kerja Anda ke AWS Glue saat:

  • Anda mencari layanan integrasi data tanpa server yang mendukung berbagai sumber data, antarmuka penulisan termasuk editor visual dan notebook, dan kemampuan manajemen data tingkat lanjut seperti kualitas data dan deteksi data sensitif.

  • Beban kerja Anda dapat dimigrasikan ke AWS Glue alur kerja, pekerjaan (dengan Python atau Apache Spark) dan crawler (misalnya, pipeline yang ada dibangun di atas Apache Spark).

  • Anda memerlukan satu platform yang dapat menangani semua aspek pipeline data Anda, termasuk konsumsi, pemrosesan, transfer, pengujian integritas, dan pemeriksaan kualitas.

  • Pipeline yang ada dibuat dari template yang telah ditentukan sebelumnya di AWS Data Pipeline konsol, seperti mengekspor tabel DynamoDB ke Amazon S3, dan Anda mencari template tujuan yang sama.

  • Beban kerja Anda tidak bergantung pada aplikasi ekosistem Hadoop tertentu seperti Apache Hive.

  • Beban kerja Anda tidak memerlukan orkestrasi server lokal.

AWS membebankan tarif per jam, ditagih per detik, untuk crawler (menemukan data) dan pekerjaan ETL (memproses dan memuat data). AWS Glue Studio adalah mesin orkestrasi bawaan untuk AWS Glue sumber daya, dan ditawarkan tanpa biaya tambahan. Pelajari lebih lanjut tentang harga di AWS Glue Harga.

Migrasi beban kerja ke AWS Step Functions

AWS Step Functions adalah layanan orkestrasi tanpa server yang memungkinkan Anda membangun alur kerja untuk aplikasi penting bisnis Anda. Dengan Step Functions, Anda menggunakan editor visual untuk membangun alur kerja dan mengintegrasikan secara langsung dengan lebih dari 11.000 tindakan untuk lebih dari 250 AWS layanan, seperti AWS Lambda, Amazon EMR, DynamoDB, dan lainnya. Anda dapat menggunakan Step Functions untuk mengatur pipeline pemrosesan data, menangani kesalahan, dan bekerja dengan batas pembatasan pada layanan yang mendasarinya. AWS Anda dapat membuat alur kerja yang memproses dan mempublikasikan model pembelajaran mesin, mengatur layanan mikro, serta AWS layanan kontrol, seperti, untuk membuat alur kerja ekstrak, transformasi AWS Glue, dan beban (ETL). Anda juga dapat membuat alur kerja otomatis yang berjalan lama untuk aplikasi yang memerlukan interaksi manusia.

Demikian pula dengan AWS Data Pipeline, AWS Step Functions adalah layanan yang dikelola sepenuhnya yang disediakan oleh AWS. Anda tidak akan diminta untuk mengelola infrastruktur, menambal pekerja, mengelola pembaruan versi OS atau yang serupa.

Sebaiknya migrasi AWS Data Pipeline beban kerja Anda ke AWS Step Functions saat:

  • Anda mencari layanan orkestrasi alur kerja tanpa server dan sangat tersedia.

  • Anda sedang mencari solusi hemat biaya yang mengenakan biaya pada perincian pelaksanaan tugas tunggal.

  • Beban kerja Anda mengatur tugas untuk beberapa AWS layanan lain, seperti Amazon EMR, Lambda, atau DynamoDB. AWS Glue

  • Anda sedang mencari solusi low-code yang dilengkapi dengan desainer drag-and-drop visual untuk pembuatan alur kerja dan tidak memerlukan pembelajaran konsep pemrograman baru.

  • Anda mencari layanan yang menyediakan integrasi dengan lebih dari 250 AWS layanan lain yang mencakup lebih dari 11.000 tindakan out-of-the-box, serta memungkinkan integrasi dengan AWS non-layanan dan aktivitas khusus.

Keduanya AWS Data Pipeline dan Step Functions menggunakan format JSON untuk menentukan alur kerja. Ini memungkinkan untuk menyimpan alur kerja Anda dalam kontrol sumber, mengelola versi, mengontrol akses, dan mengotomatisasi dengan CI/CD. Step Functions menggunakan sintaks yang disebut Amazon State Language yang sepenuhnya didasarkan pada JSON, dan memungkinkan transisi yang mulus antara representasi tekstual dan visual dari alur kerja.

Dengan Step Functions, Anda dapat memilih versi EMR Amazon yang sama dengan yang Anda gunakan saat ini. AWS Data Pipeline

Untuk memigrasi aktivitas pada sumber daya AWS Data Pipeline terkelola, Anda dapat menggunakan integrasi layanan AWS SDK pada Step Functions untuk mengotomatiskan penyediaan dan pembersihan sumber daya.

Untuk memigrasikan aktivitas di server lokal, instans EC2 yang dikelola pengguna, atau kluster EMR yang dikelola pengguna, Anda dapat menginstal agen SSM ke instans. Anda dapat memulai perintah melalui AWS Systems Manager Run Command dari Step Functions. Anda juga dapat memulai mesin status dari jadwal yang ditentukan di Amazon EventBridge.

AWS Step Functions memiliki dua jenis alur kerja: Alur Kerja Standar dan Alur Kerja Ekspres. Untuk Alur Kerja Standar, Anda dikenakan biaya berdasarkan jumlah transisi status yang diperlukan untuk menjalankan aplikasi Anda. Untuk Alur Kerja Ekspres, Anda dikenakan biaya berdasarkan jumlah permintaan untuk alur kerja dan durasinya. Pelajari lebih lanjut tentang penetapan harga di AWS Step Functions Pricing.

Memigrasi beban kerja ke Amazon MWAA

Amazon MWAA (Managed Workflows for Apache Airflow) adalah layanan orkestrasi terkelola untuk Apache Airflow yang membuatnya lebih mudah untuk mengatur dan mengoperasikan pipeline data di cloud dalam skala besar. end-to-end Apache Airflow adalah alat sumber terbuka yang digunakan untuk secara terprogram membuat, menjadwalkan, dan memantau urutan proses dan tugas yang disebut sebagai “alur kerja”. Dengan Amazon MWAA, Anda dapat menggunakan bahasa pemrograman Airflow dan Python untuk membuat alur kerja tanpa harus mengelola infrastruktur yang mendasarinya untuk skalabilitas, ketersediaan, dan keamanan. Amazon MWAA secara otomatis menskalakan kapasitas eksekusi alur kerjanya untuk memenuhi kebutuhan Anda, dan terintegrasi dengan layanan AWS keamanan untuk membantu memberi Anda akses cepat dan aman ke data Anda.

Demikian pula dengan AWS Data Pipeline, Amazon MWAA adalah layanan yang dikelola sepenuhnya yang disediakan oleh. AWS Meskipun Anda perlu mempelajari beberapa konsep baru khusus untuk layanan ini, Anda tidak diharuskan untuk mengelola infrastruktur, pekerja patch, mengelola pembaruan versi OS atau yang serupa.

Kami merekomendasikan untuk memigrasikan AWS Data Pipeline beban kerja Anda ke Amazon MWAA saat:

  • Anda mencari layanan terkelola dan sangat tersedia untuk mengatur alur kerja yang ditulis dengan Python.

  • Anda ingin beralih ke teknologi open-source yang dikelola sepenuhnya dan diadopsi secara luas, Apache Airflow, untuk portabilitas maksimum.

  • Anda memerlukan satu platform yang dapat menangani semua aspek pipeline data Anda, termasuk konsumsi, pemrosesan, transfer, pengujian integritas, dan pemeriksaan kualitas.

  • Anda sedang mencari layanan yang dirancang untuk orkestrasi pipeline data dengan fitur seperti UI kaya untuk observabilitas, restart untuk alur kerja yang gagal, pengisian ulang, dan percobaan ulang untuk tugas.

  • Anda sedang mencari layanan yang dilengkapi dengan lebih dari 800 operator dan sensor pra-bangun, mencakup AWS serta AWS non-layanan.

Alur kerja Amazon MWAA didefinisikan sebagai Grafik Asiklik Terarah (DAG) menggunakan Python, sehingga Anda juga dapat memperlakukannya sebagai kode sumber. Kerangka kerja Python Airflow yang dapat diperluas memungkinkan Anda membangun alur kerja yang terhubung dengan hampir semua teknologi. Muncul dengan antarmuka pengguna yang kaya untuk melihat dan memantau alur kerja dan dapat dengan mudah diintegrasikan dengan sistem kontrol versi untuk mengotomatiskan proses CI/CD.

Dengan Amazon MWAA, Anda dapat memilih versi EMR Amazon yang sama dengan yang Anda gunakan saat ini. AWS Data Pipeline

AWS mengenakan biaya untuk waktu lingkungan Aliran Udara Anda berjalan ditambah penskalaan otomatis tambahan untuk memberikan lebih banyak kapasitas pekerja atau server web. Pelajari lebih lanjut tentang penetapan harga di Alur Kerja Terkelola Amazon untuk Harga Aliran Udara Apache.

Memetakan konsep

Tabel berikut berisi pemetaan konsep utama yang digunakan oleh layanan. Ini akan membantu orang yang akrab dengan Data Pipeline untuk memahami Step Functions dan terminologi MWAA.

Sampel

Bagian berikut mencantumkan contoh publik yang dapat Anda rujuk untuk bermigrasi dari AWS Data Pipeline ke layanan individual. Anda dapat merujuknya sebagai contoh, dan membangun pipeline Anda sendiri pada layanan individual dengan memperbarui dan mengujinya berdasarkan kasus penggunaan Anda.

AWS Glue sampel

Daftar berikut berisi contoh implementasi untuk kasus AWS Data Pipeline penggunaan yang paling umum dengan. AWS Glue

AWS Sampel Step Functions

Daftar berikut berisi contoh implementasi untuk AWS Data Pipeline kasus penggunaan yang paling umum dengan Step Functions AWS .

Lihat tutorial tambahan dan contoh proyek untuk menggunakan AWS Step Functions.

Sampel Amazon MWAA

Daftar berikut berisi contoh implementasi untuk kasus AWS Data Pipeline penggunaan paling umum dengan Amazon MWAA.

Lihat tutorial tambahan dan contoh proyek untuk menggunakan Amazon MWAA.