Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon Managed Streaming for Apache Kafka (MSKAmazon) memudahkan untuk menelan dan memproses data streaming secara real time dengan layanan Apache Kafka yang dikelola sepenuhnya dan sangat tersedia.
Apache Kafka
Karena fitur-fitur ini, Apache Kafka sering digunakan untuk membangun jalur data streaming real-time. Pipeline data andal memproses dan memindahkan data dari satu sistem ke sistem lain dan dapat menjadi bagian penting dari mengadopsi strategi database yang dibangun khusus dengan memfasilitasi penggunaan beberapa database yang masing-masing mendukung kasus penggunaan yang berbeda.
Amazon DynamoDB adalah target umum dalam pipeline data ini untuk mendukung aplikasi yang menggunakan model data nilai kunci atau dokumen dan menginginkan skalabilitas tanpa batas dengan kinerja milidetik satu digit yang konsisten.
Cara kerjanya
Integrasi antara Amazon MSK dan DynamoDB menggunakan fungsi Lambda untuk mengkonsumsi catatan dari Amazon MSK dan menuliskannya ke DynamoDB.

Lambda secara internal melakukan polling untuk pesan baru dari Amazon MSK dan kemudian secara sinkron memanggil fungsi Lambda target. Payload acara fungsi Lambda berisi kumpulan pesan dari Amazon. MSK Untuk integrasi antara Amazon MSK dan DynamoDB, fungsi Lambda menulis pesan ini ke DynamoDB.
Siapkan integrasi antara Amazon MSK dan DynamoDB
catatan
Anda dapat mengunduh sumber daya yang digunakan dalam contoh ini di GitHub repositori
Langkah-langkah di bawah ini menunjukkan cara menyiapkan contoh integrasi antara Amazon MSK dan Amazon DynamoDB. Contoh ini mewakili data yang dihasilkan oleh perangkat Internet of Things (IoT) dan dicerna ke Amazon. MSK Karena data tertelan ke AmazonMSK, data dapat diintegrasikan dengan layanan analitik atau alat pihak ketiga yang kompatibel dengan Apache Kafka, memungkinkan berbagai kasus penggunaan analitik. Mengintegrasikan DynamoDB juga menyediakan pencarian nilai kunci dari catatan perangkat individual.
Contoh ini akan menunjukkan bagaimana skrip Python menulis data sensor IoT ke Amazon. MSK Kemudian, fungsi Lambda menulis item dengan kunci partisi "deviceid
" ke DynamoDB.
CloudFormation Template yang disediakan akan membuat sumber daya berikut: Bucket Amazon S3, AmazonVPC, MSK cluster Amazon, dan AWS CloudShell untuk menguji operasi data.
Untuk menghasilkan data pengujian, buat MSK topik Amazon lalu buat tabel DynamoDB. Anda dapat menggunakan Session Manager dari konsol manajemen untuk masuk ke CloudShell sistem operasi dan menjalankan skrip Python.
Setelah menjalankan CloudFormation template, Anda dapat menyelesaikan membangun arsitektur ini dengan melakukan operasi berikut.
-
Jalankan CloudFormation template
S3bucket.yaml
untuk membuat bucket S3. Untuk skrip atau operasi berikutnya, jalankan di Wilayah yang sama. MasukkanForMSKTestS3
sebagai nama CloudFormation tumpukan.Setelah ini selesai, catat output nama bucket S3 di bawah Output. Anda akan membutuhkan nama di Langkah 3.
-
Unggah ZIP file yang diunduh
fromMSK.zip
ke bucket S3 yang baru saja Anda buat. -
Jalankan CloudFormation template
VPC.yaml
untuk membuatVPC, Amazon MSK cluster, dan fungsi Lambda. Pada layar input parameter, masukkan nama bucket S3 yang Anda buat di Langkah 1 di mana ia meminta bucket S3. Atur nama CloudFormation tumpukan keForMSKTestVPC
. -
Siapkan lingkungan untuk menjalankan skrip Python di. CloudShell Anda dapat menggunakan CloudShell pada AWS Management Console. Untuk informasi selengkapnya tentang penggunaan CloudShell, lihat Memulai dengan AWS CloudShell. Setelah memulai CloudShell, buat milik CloudShell yang baru saja VPC Anda buat untuk terhubung ke MSK Cluster Amazon. Buat CloudShell di subnet pribadi. Isi kolom berikut:
-
Nama - dapat diatur ke nama apa pun. Contohnya adalah MSK- VPC
-
VPC- pilih MSKTest
-
Subnet - pilih MSKTestPrivate Subnet () AZ1
-
SecurityGroup- pilih orMSKSecurityGrup F
Setelah CloudShell milik Private Subnet dimulai, jalankan perintah berikut:
pip install boto3 kafka-python aws-msk-iam-sasl-signer-python
-
-
Unduh skrip Python dari bucket S3.
aws s3 cp s3://[YOUR-BUCKET-NAME]/pythonScripts.zip ./ unzip pythonScripts.zip
-
Periksa konsol manajemen dan atur variabel lingkungan untuk broker URL dan nilai Region dalam skrip Python. Periksa titik akhir broker MSK klaster Amazon di konsol manajemen.
-
Mengatur variabel lingkungan pada CloudShell. Jika Anda menggunakan US West (Oregon):
export AWS_REGION="us-west-2" export MSK_BROKER="boot-YOURMSKCLUSTER.c3.kafka-serverless.ap-southeast-1.amazonaws.com:9098"
-
Jalankan skrip Python berikut.
Buat MSK topik Amazon:
python ./createTopic.py
Buat tabel DynamoDB:
python ./createTable.py
Tulis data uji ke MSK topik Amazon:
python ./kafkaDataGen.py
-
Periksa CloudWatch metrik untuk sumber daya AmazonMSK, Lambda, dan DynamoDB yang dibuat, dan verifikasi data yang disimpan dalam
device_status
tabel menggunakan DynamoDB Data Explorer untuk memastikan semua proses berjalan dengan benar. Jika setiap proses dijalankan tanpa kesalahan, Anda dapat memeriksa apakah data pengujian yang ditulis dari CloudShell ke Amazon juga MSK ditulis ke DynamoDB. -
Setelah selesai dengan contoh ini, hapus sumber daya yang dibuat dalam tutorial ini. Hapus dua CloudFormation tumpukan:
ForMSKTestS3
danForMSKTestVPC
. Jika penghapusan tumpukan berhasil diselesaikan, semua sumber daya akan dihapus.
Langkah selanjutnya
catatan
Jika Anda membuat sumber daya saat mengikuti contoh ini, harap ingat untuk menghapusnya untuk menghindari biaya yang tidak terduga.
Integrasi mengidentifikasi arsitektur yang menautkan Amazon MSK dan DynamoDB untuk mengaktifkan data aliran guna mendukung beban kerja. OLTP Dari sini, pencarian yang lebih kompleks dapat diwujudkan dengan menautkan DynamoDB dengan Service. OpenSearch Pertimbangkan EventBridge untuk mengintegrasikan dengan kebutuhan berbasis peristiwa yang lebih kompleks, dan ekstensi seperti Amazon Managed Service untuk Apache Flink untuk throughput yang lebih tinggi dan persyaratan latensi yang lebih rendah.