Penyimpanan Data Lake Amazon Athena Azure () ADLS konektor Gen2 - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penyimpanan Data Lake Amazon Athena Azure () ADLS konektor Gen2

Konektor Amazon Athena untuk Azure Data Lake Storage (ADLS) Gen2 memungkinkan Amazon Athena menjalankan SQL kueri pada data yang disimpan. ADLS Athena tidak dapat mengakses file yang disimpan di danau data secara langsung.

Konektor ini tidak dapat didaftarkan dengan Glue Data Catalog sebagai katalog federasi. Konektor ini tidak mendukung kontrol akses data yang ditentukan dalam Lake Formation di tingkat katalog, database, tabel, kolom, baris, dan tag. Konektor ini menggunakan Glue Connections untuk memusatkan properti konfigurasi di Glue.

  • Alur kerja — Konektor mengimplementasikan JDBC antarmuka, yang menggunakan driver. com.microsoft.sqlserver.jdbc.SQLServerDriver Konektor meneruskan kueri ke mesin Azure Synapse, yang kemudian mengakses data lake.

  • Penanganan data dan S3 - Biasanya, konektor Lambda menanyakan data secara langsung tanpa transfer ke Amazon S3. Namun, ketika data yang dikembalikan oleh fungsi Lambda melebihi batas Lambda, data akan ditulis ke bucket tumpahan Amazon S3 yang Anda tentukan sehingga Athena dapat membaca kelebihannya.

  • AADotentikasi — AAD dapat digunakan sebagai metode otentikasi untuk konektor Azure Synapse. Untuk menggunakanAAD, string JDBC koneksi yang digunakan konektor harus berisi URL parameterauthentication=ActiveDirectoryServicePrincipal,AADSecurePrincipalId, danAADSecurePrincipalSecret. Parameter ini dapat diteruskan secara langsung atau oleh Secrets Manager.

Prasyarat

Batasan

  • DDLOperasi tulis tidak didukung.

  • Dalam pengaturan multiplexer, bucket tumpahan dan awalan dibagikan di semua instance database.

  • Batas Lambda yang relevan. Untuk informasi selengkapnya, lihat Kuota Lambda dalam Panduan Pengembang AWS Lambda .

  • Tipe data tanggal dan stempel waktu dalam kondisi filter harus dilemparkan ke tipe data yang sesuai.

Ketentuan

Istilah-istilah berikut terkait dengan konektor Azure Data Lake Storage Gen2.

  • Instans database — Instance apa pun dari database yang digunakan di tempat, di AmazonEC2, atau di AmazonRDS.

  • Handler - Handler Lambda yang mengakses instance database Anda. Handler bisa untuk metadata atau untuk catatan data.

  • Metadata handler — Penangan Lambda yang mengambil metadata dari instance database Anda.

  • Record handler - Handler Lambda yang mengambil catatan data dari instance database Anda.

  • Composite handler — Handler Lambda yang mengambil data metadata dan data dari instance database Anda.

  • Properti atau parameter - Properti database yang digunakan oleh penangan untuk mengekstrak informasi database. Anda mengonfigurasi properti ini sebagai variabel lingkungan Lambda.

  • Connection String — Sebuah string teks yang digunakan untuk membuat koneksi ke instance database.

  • Katalog —AWS Glue Non-katalog yang terdaftar di Athena yang merupakan awalan yang diperlukan untuk properti. connection_string

  • Multiplexing handler - Handler Lambda yang dapat menerima dan menggunakan beberapa koneksi database.

Parameter

Gunakan parameter di bagian ini untuk mengonfigurasi konektor Azure Data Lake Storage Gen2.

catatan

Konektor sumber data Athena dibuat pada 3 Desember 2024 dan kemudian menggunakan koneksi. AWS Glue

Nama parameter dan definisi yang tercantum di bawah ini adalah untuk konektor sumber data Athena yang dibuat sebelum 3 Desember 2024. Ini dapat berbeda dari properti AWS Glue koneksi yang sesuai. Mulai 3 Desember 2024, gunakan parameter di bawah ini hanya jika Anda menggunakan konektor sumber data Athena versi sebelumnya secara manual.

String koneksi

Gunakan string JDBC koneksi dalam format berikut untuk terhubung ke instance database.

datalakegentwo://${jdbc_connection_string}

Menggunakan handler multiplexing

Anda dapat menggunakan multiplexer untuk terhubung ke beberapa instance database dengan satu fungsi Lambda. Permintaan dirutekan dengan nama katalog. Gunakan kelas berikut di Lambda.

Handler Kelas
Handler komposit DataLakeGen2MuxCompositeHandler
Penangan metadata DataLakeGen2MuxMetadataHandler
Rekam handler DataLakeGen2MuxRecordHandler

Parameter handler multiplexing

Parameter Deskripsi
$catalog_connection_string Wajib. Sebuah string koneksi instance database. Awalan variabel lingkungan dengan nama katalog yang digunakan di Athena. Misalnya, jika katalog terdaftar di Athena adalahmydatalakegentwocatalog, maka nama variabel lingkungan adalah. mydatalakegentwocatalog_connection_string
default Wajib. String koneksi default. String ini digunakan saat katalognya lambda:${ AWS_LAMBDA_FUNCTION_NAME}.

Contoh properti berikut adalah untuk fungsi DataLakeGen 2 MUX Lambda yang mendukung dua instance database: datalakegentwo1 (default), dan. datalakegentwo2

Properti Nilai
default datalakegentwo://jdbc:sqlserver://adlsgentwo1.hostname:port;databaseName=database_name;${secret1_name}
datalakegentwo_catalog1_connection_string datalakegentwo://jdbc:sqlserver://adlsgentwo1.hostname:port;databaseName=database_name;${secret1_name}
datalakegentwo_catalog2_connection_string datalakegentwo://jdbc:sqlserver://adlsgentwo2.hostname:port;databaseName=database_name;${secret2_name}

Memberikan kredensi

Untuk memberikan nama pengguna dan kata sandi untuk database Anda dalam string JDBC koneksi Anda, Anda dapat menggunakan properti string koneksi atau AWS Secrets Manager.

  • Connection String - Nama pengguna dan kata sandi dapat ditentukan sebagai properti dalam string JDBC koneksi.

    penting

    Sebagai praktik keamanan terbaik, jangan gunakan kredensi hardcode dalam variabel lingkungan atau string koneksi Anda. Untuk informasi tentang memindahkan rahasia hardcode Anda AWS Secrets Manager, lihat Memindahkan rahasia hardcode ke AWS Secrets Manager dalam Panduan Pengguna.AWS Secrets Manager

  • AWS Secrets Manager— Untuk menggunakan fitur Kueri Federasi Athena dengan AWS Secrets Manager, fungsi yang VPC terhubung ke Lambda Anda harus memiliki akses internet atau titik VPCakhir untuk terhubung ke Secrets Manager.

    Anda dapat memasukkan nama rahasia ke AWS Secrets Manager dalam string JDBC koneksi Anda. Konektor menggantikan nama rahasia dengan password nilai username dan dari Secrets Manager.

    Untuk instance RDS database Amazon, dukungan ini terintegrasi erat. Jika Anda menggunakan AmazonRDS, kami sangat menyarankan penggunaan AWS Secrets Manager dan rotasi kredenal. Jika database Anda tidak menggunakan AmazonRDS, simpan kredensialnya seperti JSON dalam format berikut:

    {"username": "${username}", "password": "${password}"}
Contoh string koneksi dengan nama rahasia

String berikut memiliki nama rahasia${secret1_name}.

datalakegentwo://jdbc:sqlserver://hostname:port;databaseName=database_name;${secret1_name}

Konektor menggunakan nama rahasia untuk mengambil rahasia dan memberikan nama pengguna dan kata sandi, seperti pada contoh berikut.

datalakegentwo://jdbc:sqlserver://hostname:port;databaseName=database_name;user=user_name;password=password

Menggunakan handler koneksi tunggal

Anda dapat menggunakan metadata koneksi tunggal berikut dan penangan rekaman untuk terhubung ke satu instance Azure Data Lake Storage Gen2.

Jenis handler Kelas
Handler komposit DataLakeGen2CompositeHandler
Penangan metadata DataLakeGen2MetadataHandler
Rekam handler DataLakeGen2RecordHandler

Parameter handler koneksi tunggal

Parameter Deskripsi
default Wajib. String koneksi default.

Penangan koneksi tunggal mendukung satu instance database dan harus menyediakan parameter string default koneksi. Semua string koneksi lainnya diabaikan.

Properti contoh berikut adalah untuk satu instance Azure Data Lake Storage Gen2 yang didukung oleh fungsi Lambda.

Properti Nilai
default datalakegentwo://jdbc:sqlserver://hostname:port;databaseName=;${secret_name}

Parameter tumpahan

Lambda SDK dapat menumpahkan data ke Amazon S3. Semua instance database yang diakses oleh fungsi Lambda yang sama tumpah ke lokasi yang sama.

Parameter Deskripsi
spill_bucket Wajib. Nama ember tumpahan.
spill_prefix Wajib. Tumpahkan key prefix bucket.
spill_put_request_headers (Opsional) Peta header permintaan dan nilai yang JSON dikodekan untuk putObject permintaan Amazon S3 yang digunakan untuk menumpahkan (misalnya,). {"x-amz-server-side-encryption" : "AES256"} Untuk kemungkinan header lainnya, lihat PutObjectdi APIReferensi Layanan Penyimpanan Sederhana Amazon.

Dukungan tipe data

Tabel berikut menunjukkan tipe data yang sesuai untuk ADLS Gen2 dan Arrow.

ADLSGen2 Panah
bit TINYINT
tinyint SMALLINT
smallint SMALLINT
int INT
bigint BIGINT
desimal DECIMAL
numerik FLOAT8
uang kecil FLOAT8
money DECIMAL
mengapung [24] FLOAT4
mengapung [53] FLOAT8
real FLOAT4
datetime Tanggal (MILLISECOND)
tanggal2 Tanggal (MILLISECOND)
smalldatetime Tanggal (MILLISECOND)
date Tanggal (DAY)
Waktu VARCHAR
datetimeoffset Tanggal (MILLISECOND)
arang [n] VARCHAR
varchar [n/maks] VARCHAR

Partisi dan split

Azure Data Lake Storage Gen2 menggunakan penyimpanan gumpalan Gen2 yang kompatibel dengan Hadoop untuk menyimpan file data. Data dari file-file ini ditanyakan dari mesin Azure Synapse. Mesin Azure Synapse memperlakukan data Gen2 yang disimpan dalam sistem file sebagai tabel eksternal. Partisi diimplementasikan berdasarkan jenis data. Jika data telah dipartisi dan didistribusikan dalam sistem penyimpanan Gen 2, konektor mengambil data sebagai split tunggal.

Kinerja

Konektor Azure Data Lake Storage Gen2 menunjukkan kinerja kueri yang lebih lambat saat menjalankan beberapa kueri sekaligus, dan tunduk pada pembatasan.

Konektor Athena Azure Data Lake Storage Gen2 melakukan pushdown predikat untuk mengurangi data yang dipindai oleh kueri. Predikat sederhana dan ekspresi kompleks didorong ke konektor untuk mengurangi jumlah data yang dipindai dan mengurangi waktu eksekusi kueri.

Predikat

Predikat adalah ekspresi dalam WHERE klausa SQL kueri yang mengevaluasi nilai Boolean dan memfilter baris berdasarkan beberapa kondisi. Konektor Athena Azure Data Lake Storage Gen2 dapat menggabungkan ekspresi ini dan mendorongnya langsung ke Azure Data Lake Storage Gen2 untuk meningkatkan fungsionalitas dan untuk mengurangi jumlah data yang dipindai.

Operator konektor Gen2 Athena Azure Data Lake Storage berikut mendukung pushdown predikat:

  • Boolean:AND, ATAU, NOT

  • Kesetaraan:EQUAL, NOT _, _EQUAL, LESS _ LESS THAN _OR_THAN, _EQUAL, _ GREATER GREATER _ATAU_THAN, THAN EQUAL _JIKA, IS_ NULL NULL

  • Aritmatika:ADD,,,,SUBTRACT, MULTIPLY DIVIDE MODULUS NEGATE

  • Lainnya: LIKE _PATTERN, IN

Contoh pushdown gabungan

Untuk kemampuan kueri yang ditingkatkan, gabungkan jenis pushdown, seperti pada contoh berikut:

SELECT * FROM my_table WHERE col_a > 10 AND ((col_a + col_b) > (col_c % col_d)) AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%');

Kueri passthrough

Konektor Azure Data Lake Storage Gen2 mendukung kueri passthrough. Kueri passthrough menggunakan fungsi tabel untuk mendorong kueri lengkap Anda ke sumber data untuk dieksekusi.

Untuk menggunakan kueri passthrough dengan Azure Data Lake Storage Gen2, Anda dapat menggunakan sintaks berikut:

SELECT * FROM TABLE( system.query( query => 'query string' ))

Contoh kueri berikut mendorong kueri ke sumber data di Azure Data Lake Storage Gen2. Kueri memilih semua kolom dalam customer tabel, membatasi hasilnya menjadi 10.

SELECT * FROM TABLE( system.query( query => 'SELECT * FROM customer LIMIT 10' ))

Informasi lisensi

Dengan menggunakan konektor ini, Anda mengakui penyertaan komponen pihak ketiga, daftar yang dapat ditemukan dalam file pom.xml untuk konektor ini, dan menyetujui persyaratan dalam masing-masing lisensi pihak ketiga yang disediakan dalam LICENSEfile.txt di .com. GitHub

Sumber daya tambahan

Untuk informasi versi JDBC driver terbaru, lihat file pom.xml untuk konektor Azure Data Lake Storage Gen2 di.com. GitHub

Untuk informasi tambahan tentang konektor ini, kunjungi situs terkait GitHub di.com.