Membuat skema tunggal untuk setiap jalur Amazon S3 termasuk - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat skema tunggal untuk setiap jalur Amazon S3 termasuk

Secara default, ketika sebuah crawler mendefinisikan tabel untuk data yang disimpan di Amazon S3, ia mempertimbangkan kompatibilitas data dan kemiripan skemanya. Faktor kompatibilitas data yang dipertimbangkan termasuk apakah data memiliki format yang sama (misalnya,JSON), jenis kompresi yang sama (misalnya,GZIP), struktur jalur Amazon S3, dan atribut data lainnya. Skema kesamaan menjadi sebuah ukuran seberapa dekat keserupaan antara skema objek Amazon S3 yang terpisah.

Anda dapat mengkonfigurasi sebuah crawler CombineCompatibleSchemas ke dalam definisi tabel umum bila memungkinkan. Dengan pilihan ini, crawler tersebut masih mempertimbangkan kompatibilitas data, namun mengabaikan kesamaan skema spesifik saat mengevaluasi objek Amazon S3 di penyertaan path yang ditentukan.

Jika Anda mengkonfigurasi crawler tersebut di konsol, untuk menggabungkan skema, pilih opsi crawler Buat skema tunggal untuk setiap path S3.

Saat Anda mengonfigurasi crawler menggunakanAPI, atur opsi konfigurasi berikut:

  • Atur Configuration bidang dengan representasi string dari JSON objek berikut di crawlerAPI; misalnya:

    { "Version": 1.0, "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" } }

Untuk membantu mengilustrasikan opsi ini, anggaplah Anda menentukan sebuah crawler dengan penyertaan path s3://bucket/table1/. Ketika crawler berjalan, ia menemukan dua JSON file dengan karakteristik sebagai berikut:

  • File 1S3://bucket/table1/year=2017/data1.json

  • Isi file{“A”: 1, “B”: 2}

  • SkemaA:int, B:int

  • File 2S3://bucket/table1/year=2018/data2.json

  • Isi file{“C”: 3, “D”: 4}

  • SkemaC: int, D: int

Secara default, crawler menciptakan dua tabel, bernama year_2017 dan year_2018 karena skema tidak cukup mirip. Namun demikian, jika pilihan Buat skema tunggal untuk setiap path S3 dipilih, dan jika data kompatibel, maka crawler akan membuat satu tabel. Tabel ini memiliki skema A:int,B:int,C:int,D:int dan partitionKey year:string.