Menggunakan AWS Lake Formation dengan Amazon EMR - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan AWS Lake Formation dengan Amazon EMR

Amazon EMR adalah platform cluster AWS terkelola yang fleksibel tempat Anda dapat menjalankan kode khusus apa pun pada kerangka kerja data besar yang didukung seperti Hadoop Map-Reduce, Spark, Hive, Presto, dll. Organizations juga menggunakan Amazon EMR untuk menjalankan aplikasi pemrosesan data batch dan streaming di seluruh klaster yang sangat terdistribusi. Menggunakan Apache Spark di AmazonEMR, Anda dapat menjalankan transformasi data dan kode kustom pada database dan tabel yang izinnya dikelola oleh Lake Formation.

Ada tiga opsi untuk menyebarkan AmazonEMR:

  • EMRpada EC2

  • EMRTanpa server

  • Amazon EMR di EKS

Untuk informasi selengkapnya, lihat Mengintegrasikan Amazon EMR dengan Lake Formation atau Menggunakan EMR Tanpa Server dengan kontrol akses AWS Lake Formation berbutir halus

Support untuk format tabel transaksional

Amazon EMR merilis 6.15.0 dan yang lebih tinggi termasuk dukungan untuk tabel Lake Formation, baris, kolom, dan izin kontrol akses tingkat sel pada format tabel Apache Hudi, Apache Iceberg, dan Delta Lake saat Anda membaca dan menulis data dengan Spark. SQL

Untuk batasan, lihat Pertimbangan untuk Amazon EMR dengan Lake Formation.

Format tabel yang didukung
Format tabel Deskripsi dan operasi yang diizinkan Izin Lake Formation didukung di Amazon EMR

Apache Hudi

Format tabel terbuka yang digunakan untuk menyederhanakan pemrosesan data tambahan dan pengembangan pipa data.

Untuk daftar operasi yang didukung, lihat Apache Hudi dan Lake Formation.

Amazon EMR mendukung tabel, baris, kolom, dan kontrol akses tingkat sel dengan Apache Hudi.

Gunung Es Apache

Format tabel terbuka yang mengelola koleksi besar file sebagai tabel.

Untuk daftar operasi yang didukung, lihat Apache Iceberg and Lake Formation.

Amazon EMR mendukung tabel, baris, kolom, dan kontrol akses tingkat sel dengan Apache Iceberg.

Yayasan Linux Delta Lake

Delta Lake adalah proyek sumber terbuka yang membantu mengimplementasikan arsitektur data lake modern yang biasanya dibangun di Amazon S3 atau Hadoop Distributed File System (). HDFS

Untuk daftar operasi yang didukung, lihat Delta Lake and Lake Formation.

Amazon EMR mendukung tabel, baris, kolom, dan kontrol akses tingkat sel dengan tabel Delta Lake.

Sumber daya tambahan