Lowongan kerja Streaming - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Lowongan kerja Streaming

Pekerjaan streaming di EMR Tanpa Server adalah mode pekerjaan yang memungkinkan Anda menganalisis dan memproses data streaming dalam waktu dekat. Pekerjaan yang sudah berjalan lama ini melakukan polling data streaming dan terus memproses hasil saat data tiba. Pekerjaan streaming paling cocok untuk tugas yang memerlukan pemrosesan data waktu nyata, seperti analitik dekat waktu nyata, deteksi penipuan, dan mesin rekomendasi. EMRPekerjaan streaming tanpa server memberikan pengoptimalan, seperti ketahanan kerja bawaan, pemantauan waktu nyata, manajemen log yang ditingkatkan, dan integrasi dengan konektor streaming.

Berikut ini adalah beberapa kasus penggunaan dengan pekerjaan streaming:

  • Near real-time analytics — pekerjaan streaming di Amazon EMR Serverless memungkinkan Anda memproses data streaming dalam waktu dekat, sehingga Anda dapat melakukan analisis real-time pada aliran data berkelanjutan, seperti data log, data sensor, atau data clickstream untuk memperoleh wawasan dan membuat keputusan tepat waktu berdasarkan informasi terbaru.

  • Deteksi penipuan — Anda dapat menggunakan pekerjaan streaming untuk menjalankan deteksi penipuan real-time dalam transaksi keuangan, operasi kartu kredit, atau aktivitas online saat Anda menganalisis aliran data dan mengidentifikasi pola atau anomali yang mencurigakan saat terjadi.

  • Mesin rekomendasi — pekerjaan streaming dapat memproses data aktivitas pengguna dan memperbarui model rekomendasi. Melakukan hal itu membuka kemungkinan untuk rekomendasi yang dipersonalisasi dan real-time berdasarkan perilaku dan preferensi.

  • Analisis media sosial — pekerjaan streaming dapat memproses data media sosial, seperti tweet, komentar, dan posting, sehingga organisasi dapat memantau tren, analisis sentimen, dan mengelola reputasi merek dalam waktu dekat.

  • Analisis Internet of Things (IoT) — pekerjaan streaming dapat menangani dan menganalisis aliran data berkecepatan tinggi dari perangkat IoT, sensor, dan mesin yang terhubung, sehingga Anda dapat menjalankan deteksi anomali, pemeliharaan prediktif, dan kasus penggunaan analitik IoT lainnya.

  • Analisis Clickstream — pekerjaan streaming dapat memproses dan menganalisis data clickstream dari situs web atau aplikasi seluler. Bisnis yang menggunakan data tersebut dapat menjalankan analitik untuk mempelajari lebih lanjut tentang perilaku pengguna, mempersonalisasi pengalaman pengguna, dan mengoptimalkan kampanye pemasaran.

  • Pemantauan dan analisis log — pekerjaan streaming juga dapat memproses data log dari server, aplikasi, dan perangkat jaringan. Ini memberi Anda deteksi anomali, pemecahan masalah, serta kesehatan dan kinerja sistem.

Manfaat utama

Pekerjaan streaming di EMR Tanpa Server secara otomatis memberikan ketahanan kerja, yang merupakan kombinasi dari faktor-faktor berikut:

  • Coba ulang otomatis - EMR Tanpa server secara otomatis mencoba ulang pekerjaan apa pun yang gagal tanpa masukan manual dari Anda.

  • Ketahanan Availability Zone (AZ) — EMR Tanpa server secara otomatis mengalihkan pekerjaan streaming ke AZ yang sehat jika AZ asli mengalami masalah.

  • Manajemen log:

    • Rotasi log — untuk manajemen penyimpanan disk yang lebih efisien, EMR Serverless secara berkala memutar log untuk pekerjaan streaming yang lama. Melakukannya mencegah akumulasi log yang mungkin menghabiskan semua ruang disk.

    • Pemadatan log - membantu Anda mengelola dan mengoptimalkan file log secara efisien dalam kegigihan terkelola. Pemadatan juga meningkatkan pengalaman debug saat Anda menggunakan server riwayat percikan terkelola.

Sumber data dan sink data yang didukung

EMRServerless bekerja dengan sejumlah sumber data input dan sink data output:

  • Sumber data input yang didukung - Amazon Kinesis Data Streams, Amazon Managed Streaming untuk Apache Kafka Kafka, dan cluster Apache Kafka yang dikelola sendiri. Secara default, Amazon EMR merilis 7.1.0 dan yang lebih tinggi menyertakan konektor Amazon Kinesis Data Streams, jadi Anda tidak perlu membuat atau mengunduh paket tambahan apa pun.

  • Sinks data keluaran yang didukung - AWS Tabel Katalog Data Glue, Amazon S3, Amazon Redshift, SQL My, SQL Postgre Oracle, Oracle, SQL Microsoft, Apache Iceberg, Delta Lake, dan Apache Hudi.

Pertimbangan dan batasan

Saat Anda menggunakan pekerjaan streaming, ingatlah pertimbangan dan batasan berikut.

  • Pekerjaan streaming didukung dengan EMRrilis Amazon 7.1.0 dan yang lebih tinggi.

  • EMRTanpa server mengharapkan pekerjaan streaming berjalan untuk waktu yang lama, sehingga Anda tidak dapat mengatur batas waktu eksekusi untuk membatasi runtime pekerjaan.

  • Pekerjaan streaming hanya kompatibel dengan mesin Spark, yang dibangun di atas kerangka kerja streaming terstruktur.

  • EMRTanpa server mencoba ulang pekerjaan streaming tanpa batas waktu, dan Anda tidak dapat menyesuaikan jumlah upaya maksimum. Pencegahan thrash secara otomatis disertakan untuk menghentikan percobaan ulang pekerjaan jika jumlah upaya yang gagal telah melampaui ambang batas yang ditetapkan selama jendela per jam. Ambang batas default adalah lima upaya gagal selama satu jam. Anda dapat mengonfigurasi ambang batas ini menjadi antara 1 dan 10 upaya. Untuk informasi lebih lanjut, lihat Ketahanan Job.

  • Pekerjaan streaming memiliki pos pemeriksaan untuk menghemat status dan kemajuan runtime, sehingga EMR Tanpa Server dapat melanjutkan pekerjaan streaming dari pos pemeriksaan terbaru. Untuk informasi selengkapnya, lihat Memulihkan dari kegagalan dengan Checkpointing di dokumentasi Apache Spark.