Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Konektor streaming yang didukung
Konektor streaming memfasilitasi membaca data dari sumber streaming dan juga dapat menulis data ke wastafel streaming.
Berikut ini adalah konektor streaming yang didukung:
Konektor Amazon Kinesis Data Streams
Konektor Amazon Kinesis Data Streams untuk Apache Spark memungkinkan pembuatan aplikasi streaming dan pipeline yang menggunakan data dari dan menulis data ke Amazon Kinesis Data Streams. Konektor mendukung peningkatan konsumsi kipas dengan tingkat throughput baca khusus hingga 2MB/detik per pecahan. Secara default, Amazon EMR Serverless 7.1.0 dan yang lebih tinggi menyertakan konektor, jadi Anda tidak perlu membuat atau mengunduh paket tambahan apa pun. Untuk informasi lebih lanjut tentang konektor, lihat spark-sql-kinesis-connector halaman di GitHub
Berikut ini adalah contoh bagaimana memulai pekerjaan yang dijalankan dengan ketergantungan konektor Kinesis Data Streams.
aws emr-serverless start-job-run \ --application-id
<APPLICATION_ID>
\ --execution-role-arn<JOB_EXECUTION_ROLE>
\ --mode 'STREAMING' \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://<Kinesis-streaming-script>
", "entryPointArguments": ["s3://<DOC-EXAMPLE-BUCKET-OUTPUT>
/output"], "sparkSubmitParameters": "--conf spark.executor.cores=4 --conf spark.executor.memory=16g --conf spark.driver.cores=4 --conf spark.driver.memory=16g --conf spark.executor.instances=3 --jars /usr/share/aws/kinesis/spark-sql-kinesis/lib/spark-streaming-sql-kinesis-connector.jar" } }'
Untuk terhubung ke Kinesis Data Streams, Anda harus EMR mengonfigurasi VPC aplikasi Tanpa Server dengan akses dan VPC menggunakan titik akhir untuk memungkinkan akses pribadi. atau NAT gunakan Gateway untuk mendapatkan akses publik. Untuk informasi selengkapnya, lihat Mengonfigurasi VPC akses. Anda juga harus memastikan bahwa peran runtime pekerjaan Anda memiliki izin baca dan tulis yang diperlukan untuk mengakses aliran data yang diperlukan. Untuk mempelajari lebih lanjut tentang cara mengonfigurasi peran runtime pekerjaan, lihat Peran runtime Job untuk Amazon EMR Tanpa Server. Untuk daftar lengkap semua izin yang diperlukan, lihat spark-sql-kinesis-connector halaman di GitHub
Konektor Apache Kafka
Konektor Apache Kafka untuk streaming terstruktur Spark adalah konektor open-source dari komunitas Spark dan tersedia di repositori Maven. Konektor ini memfasilitasi aplikasi streaming terstruktur Spark untuk membaca data dari dan menulis data ke Apache Kafka yang dikelola sendiri dan Amazon Managed Streaming for Apache Kafka. Untuk informasi selengkapnya tentang konektor, lihat Panduan Integrasi Streaming Terstruktur+Kafka
Contoh berikut menunjukkan cara memasukkan konektor Kafka dalam permintaan menjalankan pekerjaan Anda.
aws emr-serverless start-job-run \ --application-id
<APPLICATION_ID>
\ --execution-role-arn<JOB_EXECUTION_ROLE>
\ --mode 'STREAMING' \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://<Kafka-streaming-script>
", "entryPointArguments": ["s3://<DOC-EXAMPLE-BUCKET-OUTPUT>
/output"], "sparkSubmitParameters": "--conf spark.executor.cores=4 --conf spark.executor.memory=16g --conf spark.driver.cores=4 --conf spark.driver.memory=16g --conf spark.executor.instances=3 --packages org.apache.spark:spark-sql-kafka-0-10_2.12:<KAFKA_CONNECTOR_VERSION>
" } }'
Versi konektor Apache Kafka bergantung pada versi rilis EMR Tanpa Server Anda dan versi Spark yang sesuai. Untuk menemukan versi Kafka yang benar, lihat lihat Panduan Streaming Terstruktur+Integrasi Kafka
Untuk menggunakan Amazon Managed Streaming for Apache Kafka Kafka IAM dengan autentikasi, Anda harus menyertakan dependensi lain untuk mengaktifkan konektor Kafka untuk terhubung ke Amazon. MSK IAM Untuk informasi selengkapnya, lihat aws-msk-iam-auth repositori
aws emr-serverless start-job-run \ --application-id
<APPLICATION_ID>
\ --execution-role-arn<JOB_EXECUTION_ROLE>
\ --mode 'STREAMING' \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://<Kafka-streaming-script>
", "entryPointArguments": ["s3://<DOC-EXAMPLE-BUCKET-OUTPUT>
/output"], "sparkSubmitParameters": "--conf spark.executor.cores=4 --conf spark.executor.memory=16g --conf spark.driver.cores=4 --conf spark.driver.memory=16g --conf spark.executor.instances=3 --packages org.apache.spark:spark-sql-kafka-0-10_2.12:<KAFKA_CONNECTOR_VERSION>
,software.amazon.msk:aws-msk-iam-auth:<MSK_IAM_LIB_VERSION>
" } }'
Untuk menggunakan konektor Kafka dan pustaka IAM otentikasi dari Amazon, MSK Anda harus mengonfigurasi aplikasi EMR Tanpa Server dengan akses. VPC Subnet Anda harus memiliki akses Internet dan menggunakan NAT Gateway untuk mengakses dependensi Maven. Untuk informasi selengkapnya, lihat Mengonfigurasi VPC akses. Subnet harus memiliki konektivitas jaringan untuk mengakses cluster Kafka. Ini benar terlepas dari apakah cluster Kafka Anda dikelola sendiri atau jika Anda menggunakan Amazon Managed Streaming for Apache Kafka.