Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Konektor Amazon Athena Cloudera Hive
Konektor Amazon Athena untuk Cloudera Hive memungkinkan Athena SQL menjalankan kueri pada distribusi Cloudera Hive Hadoop.
Konektor ini tidak menggunakan Glue Connections untuk memusatkan properti konfigurasi di Glue. Konfigurasi koneksi dilakukan melalui Lambda.
Prasyarat
Menyebarkan konektor ke Anda Akun AWS menggunakan konsol Athena atau. AWS Serverless Application Repository Untuk informasi selengkapnya, lihat Buat koneksi sumber data atau Gunakan AWS Serverless Application Repository untuk menyebarkan konektor sumber data.
Siapkan VPC dan grup keamanan sebelum Anda menggunakan konektor ini. Untuk informasi selengkapnya, lihat VPCBuat konektor atau AWS Glue koneksi sumber data.
Batasan
-
DDLOperasi tulis tidak didukung.
-
Dalam pengaturan multiplexer, bucket tumpahan dan awalan dibagikan di semua instance database.
-
Batas Lambda yang relevan. Untuk informasi selengkapnya, lihat Kuota Lambda dalam Panduan Pengembang AWS Lambda .
Ketentuan
Istilah-istilah berikut berhubungan dengan konektor Cloudera Hive.
-
Instans database — Instance apa pun dari database yang digunakan di tempat, di AmazonEC2, atau di AmazonRDS.
-
Handler - Handler Lambda yang mengakses instance database Anda. Handler bisa untuk metadata atau untuk catatan data.
-
Metadata handler — Penangan Lambda yang mengambil metadata dari instance database Anda.
-
Record handler - Handler Lambda yang mengambil catatan data dari instance database Anda.
-
Composite handler — Handler Lambda yang mengambil data metadata dan data dari instance database Anda.
-
Properti atau parameter - Properti database yang digunakan oleh penangan untuk mengekstrak informasi database. Anda mengonfigurasi properti ini sebagai variabel lingkungan Lambda.
-
Connection String — Sebuah string teks yang digunakan untuk membuat koneksi ke instance database.
-
Katalog —AWS Glue Non-katalog yang terdaftar di Athena yang merupakan awalan yang diperlukan untuk properti.
connection_string
-
Multiplexing handler - Handler Lambda yang dapat menerima dan menggunakan beberapa koneksi database.
Parameter
Gunakan parameter di bagian ini untuk mengkonfigurasi konektor Cloudera Hive.
String koneksi
Gunakan string JDBC koneksi dalam format berikut untuk terhubung ke instance database.
hive://${
jdbc_connection_string
}
Menggunakan handler multiplexing
Anda dapat menggunakan multiplexer untuk terhubung ke beberapa instance database dengan satu fungsi Lambda. Permintaan dirutekan dengan nama katalog. Gunakan kelas berikut di Lambda.
Handler | Kelas |
---|---|
Handler komposit | HiveMuxCompositeHandler |
Penangan metadata | HiveMuxMetadataHandler |
Rekam handler | HiveMuxRecordHandler |
Parameter handler multiplexing
Parameter | Deskripsi |
---|---|
$ |
Wajib. Sebuah string koneksi instance database. Awalan variabel lingkungan dengan nama katalog yang digunakan di Athena. Misalnya, jika katalog terdaftar di Athena adalahmyhivecatalog , maka nama variabel lingkungan adalah. myhivecatalog_connection_string |
default |
Wajib. String koneksi default. String ini digunakan saat katalognya lambda:${ AWS_LAMBDA_FUNCTION_NAME } . |
Contoh properti berikut adalah untuk fungsi Hive MUX Lambda yang mendukung dua instance databasehive1
: (default), dan. hive2
Properti | Nilai |
---|---|
default |
hive://jdbc:hive2://hive1:10000/default?${Test/RDS/hive1} |
hive2_catalog1_connection_string |
hive://jdbc:hive2://hive1:10000/default?${Test/RDS/hive1} |
hive2_catalog2_connection_string |
hive://jdbc:hive2://hive2:10000/default?UID=sample&PWD=sample |
Memberikan kredensi
Untuk memberikan nama pengguna dan kata sandi untuk database Anda dalam string JDBC koneksi Anda, konektor Cloudera Hive memerlukan rahasia dari. AWS Secrets Manager Untuk menggunakan fitur Kueri Federasi Athena AWS Secrets Manager, fungsi yang VPC terhubung ke Lambda Anda harus memiliki akses internet
Masukkan nama rahasia AWS Secrets Manager di string JDBC koneksi Anda. Konektor menggantikan nama rahasia dengan password
nilai username
dan dari Secrets Manager.
Contoh string koneksi dengan nama rahasia
String berikut memiliki nama rahasia${Test/RDS/hive1}
.
hive://jdbc:hive2://hive1:10000/default?...&${Test/RDS/hive1}&...
Konektor menggunakan nama rahasia untuk mengambil rahasia dan memberikan nama pengguna dan kata sandi, seperti pada contoh berikut.
hive://jdbc:hive2://hive1:10000/default?...&UID=sample2&PWD=sample2&...
Saat ini, konektor Cloudera Hive mengenali dan properti. UID
PWD
JDBC
Menggunakan handler koneksi tunggal
Anda dapat menggunakan metadata koneksi tunggal berikut dan penangan rekaman untuk terhubung ke satu instance Cloudera Hive.
Jenis handler | Kelas |
---|---|
Handler komposit | HiveCompositeHandler |
Penangan metadata | HiveMetadataHandler |
Rekam handler | HiveRecordHandler |
Parameter handler koneksi tunggal
Parameter | Deskripsi |
---|---|
default |
Wajib. String koneksi default. |
Penangan koneksi tunggal mendukung satu instance database dan harus menyediakan parameter string default
koneksi. Semua string koneksi lainnya diabaikan.
Properti contoh berikut adalah untuk instance Cloudera Hive tunggal yang didukung oleh fungsi Lambda.
Properti | Nilai |
---|---|
default | hive://jdbc:hive2://hive1:10000/default?secret=${Test/RDS/hive1} |
Parameter tumpahan
Lambda SDK dapat menumpahkan data ke Amazon S3. Semua instance database yang diakses oleh fungsi Lambda yang sama tumpah ke lokasi yang sama.
Parameter | Deskripsi |
---|---|
spill_bucket |
Wajib. Nama ember tumpahan. |
spill_prefix |
Wajib. Tumpahkan key prefix bucket. |
spill_put_request_headers |
(Opsional) Peta header permintaan dan nilai yang JSON dikodekan untuk putObject permintaan Amazon S3 yang digunakan untuk menumpahkan (misalnya,). {"x-amz-server-side-encryption" :
"AES256"} Untuk kemungkinan header lainnya, lihat PutObjectdi APIReferensi Layanan Penyimpanan Sederhana Amazon. |
Dukungan tipe data
Tabel berikut menunjukkan tipe data yang sesuai untukJDBC, Cloudera Hive, dan Arrow.
JDBC | Sarang Cloudera | Panah |
---|---|---|
Boolean | Boolean | Bit |
Bilangan Bulat | TINYINT | Mungil |
Pendek | SMALLINT | berkulit kecil |
Bilangan Bulat | INT | Int |
Long | BIGINT | Bigint |
float | mengapung4 | Mengapung4 |
Ganda | mengapung8 | Mengapung8 |
Tanggal | tanggal | DateDay |
Stempel Waktu | timestamp | DateMilli |
String | VARCHAR | Varchar |
Byte | byte | Varbiner |
BigDecimal | Decimal | Decimal |
ARRAY | N/A (lihat catatan) | Daftar |
catatan
Saat ini, Cloudera Hive tidak mendukung jenis agregatARRAY
,,MAP
, STRUCT
atau. UNIONTYPE
Kolom tipe agregat diperlakukan sebagai VARCHAR
kolom diSQL.
Partisi dan split
Partisi digunakan untuk menentukan cara menghasilkan split untuk konektor. Athena membangun kolom sintetis tipe varchar
yang mewakili skema partisi untuk tabel untuk membantu konektor menghasilkan split. Konektor tidak mengubah definisi tabel yang sebenarnya.
Kinerja
Cloudera Hive mendukung partisi statis. Konektor Athena Cloudera Hive dapat mengambil data dari partisi ini secara paralel. Jika Anda ingin menanyakan kumpulan data yang sangat besar dengan distribusi partisi yang seragam, partisi statis sangat disarankan. Konektor Cloudera Hive tahan terhadap pelambatan karena konkurensi.
Konektor Athena Cloudera Hive melakukan pushdown predikat untuk mengurangi data yang dipindai oleh kueri. LIMIT
klausa, predikat sederhana, dan ekspresi kompleks didorong ke konektor untuk mengurangi jumlah data yang dipindai dan mengurangi waktu eksekusi kueri.
LIMITklausa
LIMIT N
Pernyataan mengurangi data yang dipindai oleh kueri. Dengan LIMIT N
pushdown, konektor hanya mengembalikan N
baris ke Athena.
Predikat
Predikat adalah ekspresi dalam WHERE
klausa SQL kueri yang mengevaluasi nilai Boolean dan memfilter baris berdasarkan beberapa kondisi. Konektor Athena Cloudera Hive dapat menggabungkan ekspresi ini dan mendorongnya langsung ke Cloudera Hive untuk meningkatkan fungsionalitas dan untuk mengurangi jumlah data yang dipindai.
Operator konektor Athena Cloudera Hive berikut mendukung pushdown predikat:
-
Boolean:AND, ATAU, NOT
-
Kesetaraan:EQUAL, NOT _, _ EQUALTHAN, LESS _ LESS THAN _OR_, _EQUAL, _ GREATER _OR_THAN, GREATER IS_ THAN EQUAL NULL
-
Aritmatika:ADD,,,,SUBTRACT, MULTIPLY DIVIDE MODULUS NEGATE
-
Lainnya: LIKE _PATTERN, IN
Contoh pushdown gabungan
Untuk kemampuan kueri yang ditingkatkan, gabungkan jenis pushdown, seperti pada contoh berikut:
SELECT * FROM my_table WHERE col_a > 10 AND ((col_a + col_b) > (col_c % col_d)) AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') LIMIT 10;
Kueri passthrough
Konektor Cloudera Hive mendukung kueri passthrough. Kueri passthrough menggunakan fungsi tabel untuk mendorong kueri lengkap Anda ke sumber data untuk dieksekusi.
Untuk menggunakan kueri passthrough dengan Cloudera Hive, Anda dapat menggunakan sintaks berikut:
SELECT * FROM TABLE( system.query( query => '
query string
' ))
Contoh query berikut mendorong ke bawah query ke sumber data di Cloudera Hive. Kueri memilih semua kolom dalam customer
tabel, membatasi hasilnya menjadi 10.
SELECT * FROM TABLE( system.query( query => 'SELECT * FROM customer LIMIT 10' ))
Informasi lisensi
Dengan menggunakan konektor ini, Anda mengakui penyertaan komponen pihak ketiga, daftar yang dapat ditemukan dalam file pom.xml
Sumber daya tambahan
Untuk informasi versi JDBC driver terbaru, lihat file pom.xml
Untuk informasi tambahan tentang konektor ini, kunjungi situs terkait