Yayasan Linux Delta Lake - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Yayasan Linux Delta Lake

Linux Foundation Delta Lake adalah format tabel yang dapat Anda gunakan untuk analitik data besar. Anda dapat menggunakan Athena for Spark untuk membaca tabel Delta Lake yang disimpan di Amazon S3 secara langsung.

Untuk menggunakan tabel Delta Lake di Athena untuk Spark, konfigurasikan properti Spark berikut. Properti ini dikonfigurasi untuk Anda secara default di konsol Athena untuk Spark ketika Anda memilih Delta Lake sebagai format tabel. Untuk langkah-langkah, lihat Mengedit detail sesi atauMembuat buku catatan Anda sendiri.

"spark.sql.catalog.spark_catalog" : "org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension"

Prosedur berikut menunjukkan kepada Anda cara menggunakan tabel Delta Lake di notebook Athena untuk Spark. Jalankan setiap langkah di sel baru di notebook.

Untuk menggunakan meja Danau Delta di Athena untuk Spark
  1. Tentukan konstanta yang akan digunakan di notebook.

    DB_NAME = "NEW_DB_NAME" TABLE_NAME = "NEW_TABLE_NAME" TABLE_S3_LOCATION = "s3://amzn-s3-demo-bucket"
  2. Buat Apache Spark DataFrame.

    columns = ["language","users_count"] data = [("Golang", 3000)] df = spark.createDataFrame(data, columns)
  3. Buat database.

    spark.sql("CREATE DATABASE {} LOCATION '{}'".format(DB_NAME, TABLE_S3_LOCATION))
  4. Buat tabel Delta Lake kosong.

    spark.sql(""" CREATE TABLE {}.{} ( language string, users_count int ) USING DELTA """.format(DB_NAME, TABLE_NAME))
  5. Masukkan deretan data ke dalam tabel.

    spark.sql("""INSERT INTO {}.{} VALUES ('Golang', 3000)""".format(DB_NAME, TABLE_NAME))
  6. Konfirmasikan bahwa Anda dapat menanyakan tabel baru.

    spark.sql("SELECT * FROM {}.{}".format(DB_NAME, TABLE_NAME)).show()