Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Konektor MSK Amazon Athena
Konektor Amazon Athena untuk Amazon MSK memungkinkan Amazon
Prasyarat
Menyebarkan konektor ke Anda Akun AWS menggunakan konsol Athena atau. AWS Serverless Application Repository Untuk informasi selengkapnya, lihat Menyebarkan konektor sumber data atau Gunakan AWS Serverless Application Repository untuk menyebarkan konektor sumber data.
Batasan
-
Menulis operasi DDL tidak didukung.
-
Batas Lambda yang relevan. Untuk informasi selengkapnya, lihat Kuota Lambda dalam Panduan Pengembang AWS Lambda .
-
Tipe data tanggal dan stempel waktu dalam kondisi filter harus dilemparkan ke tipe data yang sesuai.
-
Tipe data tanggal dan stempel waktu tidak didukung untuk jenis file CSV dan diperlakukan sebagai nilai varchar.
-
Pemetaan ke bidang JSON bersarang tidak didukung. Konektor hanya memetakan bidang tingkat atas.
-
Konektor tidak mendukung tipe yang kompleks. Tipe kompleks ditafsirkan sebagai string.
-
Untuk mengekstrak atau bekerja dengan nilai JSON yang kompleks, gunakan fungsi terkait JSON yang tersedia di Athena. Untuk informasi selengkapnya, lihat Ekstrak JSON data dari string.
-
Konektor tidak mendukung akses ke metadata pesan Kafka.
Ketentuan
-
Metadata handler — Penangan Lambda yang mengambil metadata dari instance database Anda.
-
Record handler - Handler Lambda yang mengambil catatan data dari instance database Anda.
-
Composite handler — Handler Lambda yang mengambil data metadata dan data dari instance database Anda.
-
Endpoint Kafka — String teks yang membuat koneksi ke instance Kafka.
Kompatibilitas cluster
Konektor MSK dapat digunakan dengan jenis cluster berikut.
-
MSK Provisioned cluster — Anda secara manual menentukan, memantau, dan menskalakan kapasitas cluster.
-
MSK Serverless cluster — Menyediakan kapasitas sesuai permintaan yang diskalakan secara otomatis sebagai timbangan I/O aplikasi.
-
Standalone Kafka — Koneksi langsung ke Kafka (diautentikasi atau tidak diautentikasi).
Metode otentikasi yang didukung
Konektor mendukung metode otentikasi berikut.
-
SASL/PLAIN
-
SELEMPANG/TEKS BIASA
-
NO_AUTH
Untuk informasi selengkapnya, lihat Mengkonfigurasi otentikasi untuk konektor MSK Athena.
Format data input yang didukung
Konektor mendukung format data input berikut.
-
JSON
-
CSV
Parameter
Gunakan variabel lingkungan Lambda yang disebutkan di bagian ini untuk mengonfigurasi konektor MSK Athena.
-
auth_type - Menentukan jenis otentikasi cluster. Konektor mendukung jenis otentikasi berikut:
-
NO_AUTH — Terhubung langsung ke Kafka tanpa otentikasi (misalnya, ke cluster Kafka yang digunakan melalui instans EC2 yang tidak menggunakan otentikasi).
-
SASL_SSL_PLAIN — Metode ini menggunakan protokol
SASL_SSL
keamanan dan mekanisme SASL.PLAIN
-
SASL_PLAINTEXT_PLAIN — Metode ini menggunakan protokol keamanan dan mekanisme SASL.
SASL_PLAINTEXT
PLAIN
catatan
Jenis
SASL_SSL_PLAIN
danSASL_PLAINTEXT_PLAIN
otentikasi didukung oleh Apache Kafka tetapi tidak oleh Amazon MSK. -
SASL_SSL_AWS_MSK_IAM - Kontrol akses IAM untuk Amazon MSK memungkinkan Anda menangani otentikasi dan otorisasi untuk klaster MSK Anda. AWS Kredensyal pengguna Anda (kunci rahasia dan kunci akses) digunakan untuk terhubung dengan cluster. Untuk informasi selengkapnya, lihat Kontrol akses IAM di Panduan Pengembang Amazon Managed Streaming for Apache Kafka Kafka.
-
SASL_SSL_SCRAM_SHA512 - Anda dapat menggunakan jenis otentikasi ini untuk mengontrol akses ke kluster MSK Amazon Anda. Metode ini menyimpan nama pengguna dan kata sandi AWS Secrets Manager. Rahasianya harus dikaitkan dengan cluster MSK Amazon. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi SASL/SCRAM untuk klaster MSK Amazon di Panduan Pengembang Amazon Managed Streaming for Apache Kafka.
-
SSL — Otentikasi SSL menggunakan penyimpanan kunci dan file penyimpanan kepercayaan untuk terhubung dengan kluster MSK Amazon. Anda harus membuat file trust store dan key store, mengunggahnya ke bucket Amazon S3, dan memberikan referensi ke Amazon S3 saat Anda menggunakan konektor. Toko kunci, toko kepercayaan, dan kunci SSL disimpan di AWS Secrets Manager. Klien Anda harus memberikan kunci AWS rahasia saat konektor dikerahkan. Untuk informasi selengkapnya, lihat Autentikasi TLS Mutual di Amazon Managed Streaming for Apache Kafka Developer Guide.
Untuk informasi selengkapnya, lihat Mengkonfigurasi otentikasi untuk konektor MSK Athena.
-
-
certificates_s3_reference — Lokasi Amazon S3 yang berisi sertifikat (penyimpanan kunci dan file penyimpanan kepercayaan).
-
disable_spill_encryption — (Opsional) Ketika diatur ke, menonaktifkan enkripsi tumpahan.
True
DefaultnyaFalse
sehingga data yang tumpah ke S3 dienkripsi menggunakan AES-GCM — baik menggunakan kunci yang dihasilkan secara acak atau KMS untuk menghasilkan kunci. Menonaktifkan enkripsi tumpahan dapat meningkatkan kinerja, terutama jika lokasi tumpahan Anda menggunakan enkripsi sisi server. -
kafka_endpoint — Detail titik akhir untuk diberikan kepada Kafka. Misalnya, untuk klaster MSK Amazon, Anda menyediakan URL bootstrap untuk klaster.
-
secrets_manager_secret — Nama rahasia tempat AWS kredensialnya disimpan. Parameter ini tidak diperlukan untuk otentikasi IAM.
-
Parameter tumpahan — Fungsi Lambda menyimpan sementara (“tumpahan”) data yang tidak sesuai dengan memori ke Amazon S3. Semua instance database yang diakses oleh fungsi Lambda yang sama tumpah ke lokasi yang sama. Gunakan parameter dalam tabel berikut untuk menentukan lokasi tumpahan.
Parameter Deskripsi spill_bucket
Wajib. Nama bucket Amazon S3 tempat fungsi Lambda dapat menumpahkan data. spill_prefix
Wajib. Awalan dalam ember tumpahan tempat fungsi Lambda dapat menumpahkan data. spill_put_request_headers
(Opsional) Peta header permintaan dan nilai yang disandikan JSON untuk permintaan Amazon S3 yang digunakan untuk menumpahkan (misalnya,). putObject
{"x-amz-server-side-encryption" : "AES256"}
Untuk kemungkinan header lainnya, lihat PutObjectdi Referensi API Amazon Simple Storage Service.
Dukungan tipe data
Tabel berikut menunjukkan tipe data yang sesuai yang didukung untuk Kafka dan Apache Arrow.
Kafka | Panah |
---|---|
CHAR | VARCHAR |
VARCHAR | VARCHAR |
TIMESTAMP | MILIDETIK |
TANGGAL | DAY |
BOOLEAN | BOOL |
SMALLINT | SMALLINT |
INTEGER | INT |
BIGINT | BIGINT |
DECIMAL | FLOAT8 |
DOUBLE | FLOAT8 |
Partisi dan split
Topik Kafka dibagi menjadi beberapa partisi. Setiap partisi dipesan. Setiap pesan dalam partisi memiliki ID tambahan yang disebut offset. Setiap partisi Kafka dibagi lagi menjadi beberapa split untuk pemrosesan paralel. Data tersedia untuk periode retensi yang dikonfigurasi dalam cluster Kafka.
Praktik terbaik
Sebagai praktik terbaik, gunakan predikat pushdown saat Anda menanyakan Athena, seperti pada contoh berikut.
SELECT * FROM "
msk_catalog_name
"."glue_schema_registry_name
"."glue_schema_name
" WHERE integercol = 2147483647
SELECT * FROM "
msk_catalog_name
"."glue_schema_registry_name
"."glue_schema_name
" WHERE timestampcol >= TIMESTAMP '2018-03-25 07:30:58.878'
Menyiapkan konektor MSK
Sebelum Anda dapat menggunakan konektor, Anda harus mengatur cluster MSK Amazon Anda, menggunakan AWS Glue Schema Registry untuk menentukan skema Anda, dan mengkonfigurasi otentikasi untuk konektor.
catatan
Jika Anda menyebarkan konektor ke VPC untuk mengakses sumber daya pribadi dan juga ingin terhubung ke layanan yang dapat diakses publik seperti Confluent, Anda harus mengaitkan konektor dengan subnet pribadi yang memiliki NAT Gateway. Untuk informasi selengkapnya, lihat gateway NAT di Panduan Pengguna Amazon VPC.
Saat bekerja dengan AWS Glue Schema Registry, perhatikan poin-poin berikut:
-
Pastikan bahwa teks di bidang Deskripsi dari AWS Glue Schema Registry menyertakan string
{AthenaFederationMSK}
. String penanda ini diperlukan untuk AWS Glue Registries yang Anda gunakan dengan konektor MSK Amazon Athena. -
Untuk kinerja terbaik, gunakan hanya huruf kecil untuk nama database dan nama tabel Anda. Menggunakan casing campuran menyebabkan konektor melakukan pencarian case insensitive yang lebih intensif secara komputasi.
Untuk mengatur lingkungan MSK Amazon dan Registri AWS Glue Skema
-
Siapkan lingkungan MSK Amazon Anda. Untuk informasi dan langkah-langkahnya, lihat Menyiapkan MSK Amazon dan Memulai menggunakan MSK Amazon di Panduan Pengembang Amazon Managed Streaming for Apache Kafka.
-
Unggah file deskripsi topik Kafka (yaitu skema) dalam format JSON ke Schema Registry. AWS Glue Untuk informasi selengkapnya, lihat Mengintegrasikan dengan Registri AWS Glue Skema di Panduan AWS Glue Pengembang. Misalnya skema, lihat bagian berikut.
Gunakan format contoh di bagian ini saat Anda mengunggah skema Anda ke Registri AWS Glue Skema.
Contoh skema tipe JSON
Dalam contoh berikut, skema yang akan dibuat dalam AWS Glue Schema Registry menentukan json
sebagai nilai untuk dataFormat
dan menggunakan untuk. datatypejson
topicName
catatan
Nilai untuk topicName
harus menggunakan casing yang sama dengan nama topik di Kafka.
{ "topicName": "datatypejson", "message": { "dataFormat": "json", "fields": [ { "name": "intcol", "mapping": "intcol", "type": "INTEGER" }, { "name": "varcharcol", "mapping": "varcharcol", "type": "VARCHAR" }, { "name": "booleancol", "mapping": "booleancol", "type": "BOOLEAN" }, { "name": "bigintcol", "mapping": "bigintcol", "type": "BIGINT" }, { "name": "doublecol", "mapping": "doublecol", "type": "DOUBLE" }, { "name": "smallintcol", "mapping": "smallintcol", "type": "SMALLINT" }, { "name": "tinyintcol", "mapping": "tinyintcol", "type": "TINYINT" }, { "name": "datecol", "mapping": "datecol", "type": "DATE", "formatHint": "yyyy-MM-dd" }, { "name": "timestampcol", "mapping": "timestampcol", "type": "TIMESTAMP", "formatHint": "yyyy-MM-dd HH:mm:ss.SSS" } ] } }
Contoh skema tipe CSV
Dalam contoh berikut, skema yang akan dibuat dalam AWS Glue Schema Registry menentukan csv
sebagai nilai untuk dataFormat
dan menggunakan untuk. datatypecsvbulk
topicName
Nilai untuk topicName
harus menggunakan casing yang sama dengan nama topik di Kafka.
{ "topicName": "datatypecsvbulk", "message": { "dataFormat": "csv", "fields": [ { "name": "intcol", "type": "INTEGER", "mapping": "0" }, { "name": "varcharcol", "type": "VARCHAR", "mapping": "1" }, { "name": "booleancol", "type": "BOOLEAN", "mapping": "2" }, { "name": "bigintcol", "type": "BIGINT", "mapping": "3" }, { "name": "doublecol", "type": "DOUBLE", "mapping": "4" }, { "name": "smallintcol", "type": "SMALLINT", "mapping": "5" }, { "name": "tinyintcol", "type": "TINYINT", "mapping": "6" }, { "name": "floatcol", "type": "DOUBLE", "mapping": "7" } ] } }
Mengkonfigurasi otentikasi untuk konektor MSK Athena
Anda dapat menggunakan berbagai metode untuk mengautentikasi ke cluster MSK Amazon Anda, termasuk IAM, SSL, SCRAM, dan Kafka mandiri.
Tabel berikut menunjukkan jenis otentikasi untuk konektor dan protokol keamanan dan mekanisme SASL untuk masing-masing. Untuk informasi selengkapnya, lihat Otentikasi dan otorisasi untuk Apache Kafka API di Panduan Pengembang Amazon Managed Streaming for Apache Kafka.
auth_type | security.protocol | sasl.mekanisme |
---|---|---|
SASL_SSL_PLAIN |
SASL_SSL |
PLAIN |
SASL_PLAINTEXT_PLAIN |
SASL_PLAINTEXT |
PLAIN |
SASL_SSL_AWS_MSK_IAM |
SASL_SSL |
AWS_MSK_IAM |
SASL_SSL_SCRAM_SHA512 |
SASL_SSL |
SCRAM-SHA-512 |
SSL |
SSL |
N/A |
catatan
Jenis SASL_SSL_PLAIN
dan SASL_PLAINTEXT_PLAIN
otentikasi didukung oleh Apache Kafka tetapi tidak oleh Amazon MSK.
SELEMPANG/IAM
Jika klaster menggunakan autentikasi IAM, Anda harus mengonfigurasi kebijakan IAM untuk pengguna saat menyiapkan klaster. Untuk informasi selengkapnya, lihat Kontrol akses IAM di Panduan Pengembang Amazon Managed Streaming for Apache Kafka Kafka.
Untuk menggunakan jenis otentikasi ini, setel variabel lingkungan auth_type
Lambda untuk konektor. SASL_SSL_AWS_MSK_IAM
SSL
Jika klaster diautentikasi SSL, Anda harus membuat file trust store dan key store dan mengunggahnya ke bucket Amazon S3. Anda harus memberikan referensi Amazon S3 ini saat Anda menggunakan konektor. Toko kunci, toko kepercayaan, dan kunci SSL disimpan di file. AWS Secrets Manager Anda memberikan kunci AWS rahasia saat Anda menggunakan konektor.
Untuk informasi tentang cara membuat rahasia di Secrets Manager, lihat Membuat AWS Secrets Manager rahasia.
Untuk menggunakan jenis otentikasi ini, atur variabel lingkungan seperti yang ditunjukkan pada tabel berikut.
Parameter | Nilai |
---|---|
auth_type |
SSL |
certificates_s3_reference |
Lokasi Amazon S3 yang berisi sertifikat. |
secrets_manager_secret |
Nama kunci AWS rahasiamu. |
Setelah Anda membuat rahasia di Secrets Manager, Anda dapat melihatnya di konsol Secrets Manager.
Untuk melihat rahasia Anda di Secrets Manager
Buka konsol Secrets Manager di https://console.aws.amazon.com/secretsmanager/
. -
Di panel navigasi, pilih Rahasia.
-
Pada halaman Rahasia, pilih tautan ke rahasia Anda.
-
Pada halaman detail untuk rahasia Anda, pilih Ambil nilai rahasia.
Gambar berikut menunjukkan contoh rahasia dengan tiga pasangan kunci/nilai:
keystore_password
,truststore_password
, dan.ssl_key_password
SASL/SCRAM
Jika klaster Anda menggunakan otentikasi SCRAM, berikan kunci Secrets Manager yang terkait dengan cluster saat Anda menerapkan konektor. AWS Kredensyal pengguna (kunci rahasia dan kunci akses) digunakan untuk mengautentikasi dengan cluster.
Mengatur variabel lingkungan seperti yang ditunjukkan pada tabel berikut.
Parameter | Nilai |
---|---|
auth_type |
SASL_SSL_SCRAM_SHA512 |
secrets_manager_secret |
Nama kunci AWS rahasiamu. |
Gambar berikut menunjukkan contoh rahasia di konsol Secrets Manager dengan dua pasangan kunci/nilai: satu untukusername
, dan satu untuk. password
Informasi lisensi
Dengan menggunakan konektor ini, Anda mengakui penyertaan komponen pihak ketiga, daftar yang dapat ditemukan dalam file pom.xml
Sumber daya tambahan
Untuk informasi tambahan tentang konektor ini, kunjungi situs terkait