Penemuan dan katalogisasi data di AWS Glue

Mode fokus

Penemuan dan katalogisasi data di AWS Glue - AWS Glue

AWS Glue Data Catalog Ini adalah repositori terpusat yang menyimpan metadata tentang kumpulan data organisasi Anda. Ini bertindak sebagai indeks lokasi, skema, dan metrik runtime dari sumber data Anda. Metadata disimpan dalam tabel metadata, di mana setiap tabel mewakili penyimpanan data tunggal.

Anda dapat mengisi Katalog Data menggunakan crawler, yang secara otomatis memindai sumber data Anda dan mengekstrak metadata. Crawler dapat terhubung ke sumber data yang internal (AWS berbasis) dan eksternal ke AWS.

Untuk informasi selengkapnya tentang sumber data yang didukung, lihat Sumber data yang didukung untuk crawling

Anda juga dapat membuat tabel dalam Katalog Data secara manual dengan mendefinisikan struktur tabel, skema, dan struktur partisi sesuai dengan kebutuhan spesifik Anda.

Untuk informasi selengkapnya tentang membuat tabel metadata secara manual, lihat. Mendefinisikan metadata secara manual

Anda dapat menggunakan informasi dalam Katalog Data untuk membuat dan memantau pekerjaan ETL Anda. Katalog Data terintegrasi dengan layanan AWS analitik lainnya, memberikan tampilan terpadu sumber data sehingga lebih mudah untuk mengelola dan menganalisis data.

Amazon Athena — Simpan dan kueri metadata tabel di Katalog Data untuk data Amazon S3 menggunakan SQL.
AWS Lake Formation — Mendefinisikan dan mengelola kebijakan akses data berbutir halus dan akses data audit secara terpusat.
Amazon EMR — Akses sumber data yang ditentukan dalam Katalog Data untuk pemrosesan data besar.
Amazon SageMaker AI — Membangun, melatih, dan menerapkan model pembelajaran mesin dengan cepat dan percaya diri.

Fitur utama dari Katalog Data

Berikut ini adalah aspek-aspek kunci dari Katalog Data.

Repositori metadata

Katalog Data bertindak sebagai repositori metadata pusat, menyimpan informasi tentang lokasi, skema, dan properti sumber data Anda. Metadata ini disusun ke dalam database dan tabel, mirip dengan katalog database relasional tradisional.

Dapat ditemukan data otomatis

Perayap AWS Glue s dapat secara otomatis menemukan dan membuat katalog sumber data baru atau yang diperbarui, mengurangi overhead manajemen metadata manual dan memastikan bahwa Katalog Data Anda tetap ada. up-to-date Dengan membuat katalog sumber data Anda, Katalog Data memudahkan pengguna dan aplikasi untuk menemukan dan memahami aset data yang tersedia dalam organisasi Anda, mempromosikan penggunaan kembali dan kolaborasi data.

Katalog Data mendukung berbagai sumber data, termasuk Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive, dan banyak lagi. Secara otomatis dapat menyimpulkan dan menyimpan metadata dari sumber-sumber ini menggunakan s. Perayap AWS Glue

Untuk informasi lebih lanjut lihat,Menggunakan crawler untuk mengisi Katalog Data .

Manajemen skema

Katalog Data secara otomatis menangkap dan mengelola skema sumber data Anda, termasuk inferensi skema, evolusi, dan pembuatan versi. Anda dapat memperbarui skema dan partisi Anda di Katalog Data menggunakan pekerjaan AWS Glue ETL.

Optimalisasi tabel

Untuk kinerja pembacaan yang lebih baik oleh layanan AWS analitik seperti Amazon Athena dan Amazon EMR, dan pekerjaan AWS Glue ETL, Katalog Data menyediakan pemadatan terkelola (proses yang memadatkan objek Amazon S3 kecil menjadi objek yang lebih besar) untuk tabel Gunung Es di Katalog Data. Anda dapat menggunakan AWS Glue konsol, AWS Lake Formation konsol AWS CLI, atau AWS API untuk mengaktifkan atau menonaktifkan pemadatan untuk tabel Iceberg individual yang ada di Katalog Data.

Untuk informasi selengkapnya, lihat Mengoptimalkan tabel Iceberg.

Statistik kolom

Anda dapat menghitung statistik tingkat kolom untuk tabel Katalog Data dalam format data seperti Parket, ORC, JSON, ION, CSV, dan XMLtanpa menyiapkan pipeline data tambahan. Statistik kolom membantu Anda memahami profil data dengan mendapatkan wawasan tentang nilai dalam kolom. Katalog Data mendukung pembuatan statistik untuk nilai kolom seperti nilai minimum, nilai maksimum, nilai nol total, nilai total yang berbeda, panjang rata-rata nilai, dan total kemunculan nilai sebenarnya.

Untuk informasi selengkapnya, lihat Mengoptimalkan kinerja kueri menggunakan statistik kolom.

Silsilah data

Katalog Data menyimpan catatan transformasi dan operasi yang dilakukan pada data Anda, memberikan informasi garis keturunan data. Informasi silsilah ini berharga untuk audit, kepatuhan, dan pemahaman asal data.

Integrasi dengan AWS layanan lain

Katalog Data terintegrasi dengan mulus dengan AWS layanan lain, seperti, Amazon Athena AWS Lake Formation, Amazon Redshift Spectrum, dan Amazon EMR. Integrasi ini memungkinkan Anda untuk menanyakan dan menganalisis data di berbagai penyimpanan data menggunakan satu lapisan metadata yang konsisten.

Keamanan dan kontrol akses

AWS Glue terintegrasi dengan AWS Lake Formation untuk mendukung kontrol akses berbutir halus untuk sumber daya Katalog Data, memungkinkan Anda mengelola izin dan mengamankan akses ke aset data berdasarkan kebijakan dan persyaratan organisasi Anda. AWS Glue terintegrasi dengan AWS Key Management Service (AWS KMS) untuk mengenkripsi metadata yang disimpan dalam Katalog Data.