Membuat skema tunggal untuk setiap jalur Amazon S3 termasuk

Mode fokus

Membuat skema tunggal untuk setiap jalur Amazon S3 termasuk - AWS Glue

Secara default, ketika sebuah crawler mendefinisikan tabel untuk data yang disimpan di Amazon S3, ia mempertimbangkan kompatibilitas data dan kemiripan skemanya. Faktor kompatibilitas data yang dianggap termasuk apakah data mempunyai format yang sama (misalnya, JSON), mempunyai jenis kompresi yang sama (misalnya, GZIP), struktur path Amazon S3, dan atribut data lainnya. Skema kesamaan menjadi sebuah ukuran seberapa dekat keserupaan antara skema objek Amazon S3 yang terpisah.

Untuk membantu mengilustrasikan opsi ini, anggaplah Anda menentukan sebuah crawler dengan penyertaan path s3://bucket/table1/. Ketika crawler tersebut berjalan, ia menemukan dua file JSON dengan karakteristik sebagai berikut:

File 1 — S3://bucket/table1/year=2017/data1.json
Isi file — {“A”: 1, “B”: 2}
Skema — A:int, B:int

File 2 — S3://bucket/table1/year=2018/data2.json
Isi file — {“C”: 3, “D”: 4}
Skema — C: int, D: int

Secara default, crawler menciptakan dua tabel, bernama year_2017 dan year_2018 karena skema tidak cukup mirip. Namun demikian, jika pilihan Buat skema tunggal untuk setiap path S3 dipilih, dan jika data kompatibel, maka crawler akan membuat satu tabel. Tabel ini memiliki skema A:int,B:int,C:int,D:int dan partitionKey year:string.

anchor anchor anchor

Masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/.
Pilih Crawler di bawah Katalog Data.
Saat Anda mengonfigurasi crawler baru, di bawah Output dan penjadwalan, pilih opsi Buat skema tunggal untuk setiap jalur S3 di bawah Opsi lanjutan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mencegah crawler mengubah skema

Menentukan lokasi tabel dan tingkat partisi

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Membuat skema tunggal untuk setiap jalur Amazon S3 termasuk

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?