Menggunakan file di Amazon S3 untuk sumber data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan file di Amazon S3 untuk sumber data

Jika Anda memilih Amazon S3 sebagai sumber data Anda, maka Anda dapat memilih salah satunya:

  • Basis data dan tabel Katalog Data.

  • Sebuah bucket, folder, atau file di Amazon S3.

Jika Anda menggunakan bucket Amazon S3 sebagai sumber data, AWS Glue mendeteksi skema data di lokasi yang ditentukan dari salah satu file, atau dengan menggunakan file yang Anda tentukan sebagai file sampel. Deteksi skema terjadi ketika Anda menggunakan tombol Simpulkan skema. Jika anda mengganti lokasi Amazon S3 atau file sampel, maka anda mesti memilih Simpulkan skema lagi untuk melakukan deteksi skema menggunakan informasi baru.

Untuk mengkonfigurasi sebuah simpul sumber data yang membaca langsung dari file di Amazon S3
  1. Pergi ke editor visual untuk sebuah tugas baru atau yang sudah disimpan.

  2. Pilih simpul sumber data dalam diagram tugas untuk sumber Amazon S3.

  3. Pilih tab Properti sumber data, dan kemudian masukkan informasi berikut:

    • Tipe sumber S3: (Untuk sumber data Amazon S3 saja) Pilih opsi Lokasi S3.

    • URL S3: Masukkan path ke bucket Amazon S3, folder, atau file yang berisi data untuk tugas Anda. Anda dapat memilih Jelajahi S3 untuk memilih path dari lokasi yang tersedia ke akun Anda.

    • Rekursif: Pilih opsi ini jika Anda AWS Glue ingin membaca data dari file di folder anak di lokasi S3.

      Jika folder anak berisi data yang dipartisi, AWS Glue tidak akan menambahkan informasi partisi apa pun yang ditentukan dalam nama folder ke Katalog Data. Sebagai contoh, pertimbangkan folder di Amazon S3:

      S3://sales/year=2019/month=Jan/day=1 S3://sales/year=2019/month=Jan/day=2

      Jika Anda memilih Recursive dan memilih sales folder sebagai lokasi S3 Anda, kemudian AWS Glue membaca data di semua folder anak, tetapi tidak membuat partisi untuk tahun, bulan atau hari.

    • Format data: Pilih format data yang digunakan saat menyimpan data. Anda dapat memilih JSON, CSV, atau Parquet. Nilai yang Anda pilih memberitahu tugas AWS Glue bagaimana cara membaca data dari file sumber.

      catatan

      Jika Anda tidak memilih format yang benar untuk data Anda, AWS Glue mungkin menyimpulkan skema dengan benar, tetapi pekerjaan tidak akan dapat mengurai data dengan benar dari file sumber.

      Anda dapat memasukkan opsi konfigurasi tambahan, tergantung pada format data yang Anda pilih.

      • JSON (Notasi JavaScript Objek)

        • JsonPath: Masukkan jalur JSON yang menunjuk ke objek yang digunakan untuk mendefinisikan skema tabel. Ekspresi path JSON selalu mengacu pada struktur JSON dengan cara yang sama seperti ekspresi XPath digunakan dalam kombinasi dengan dokumen XML. "objek anggota akar" di path JSON selalu disebut sebagai $, bahkan jika itu adalah sebuah objek atau array. Path JSON dapat ditulis dalam notasi dot atau notasi kurung.

          Untuk informasi lebih lanjut tentang jalur JSON, lihat JsonPathdi situs GitHub web.

        • Catatan dalam file sumber dapat mencapai beberapa baris: Pilih opsi ini jika satu catatan dapat mencapai panjang hingga beberapa baris dalam file CSV.

      • CSV (nilai yang dipisahkan koma)

        • Pembatas: Masukkan sebuah karakter untuk menunjukkan apa yang memisahkan masing-masing entri kolom dalam baris, misalnya, ; atau ,.

        • Karakter escape: Masukkan karakter yang digunakan sebagai karakter escape. Karakter ini menunjukkan bahwa karakter yang terletak tepat setelah karakter escape harus diambil secara harfiah, dan tidak boleh ditafsirkan sebagai pembatas.

        • Karakter kutipan: Masukkan karakter yang digunakan untuk mengelompokkan string terpisah menjadi nilai tunggal. Misalnya, Anda akan memilih Kutipan ganda (") jika Anda memiliki nilai-nilai seperti "This is a single value" di file CSV Anda.

        • Catatan dalam file sumber dapat mencapai beberapa baris: Pilih opsi ini jika satu catatan dapat mencapai panjang hingga beberapa baris dalam file CSV.

        • Baris pertama dari file sumber berisi header kolom: Pilih opsi ini jika baris pertama dalam file CSV berisi header kolom, bukan data.

      • Parquet (Penyimpanan kolumnar Apache Parquet)

        Tidak ada pengaturan tambahan untuk mengkonfigurasi data yang disimpan dalam format Parquet.

    • Predikat partisi: Untuk partisi data yang dibaca dari sumber data, masukkan ekspresi Boolean berdasarkan Spark SQL yang menyertakan hanya kolom pemartisian saja. Misalnya: "(year=='2020' and month=='04')"

    • Opsi lanjutan: Perluas bagian ini jika Anda AWS Glue ingin mendeteksi skema data Anda berdasarkan file tertentu.

      • Inferensi skema: Pilih opsi Pilih file sampel dari S3 jika Anda ingin menggunakan file tertentu alih-alih membiarkan AWS Glue memilih file.

      • File pengambilan sampel otomatis: Masukkan path ke file di Amazon S3 yang akan digunakan untuk menyimpulkan skema.

      Jika Anda mengedit sebuah simpul sumber data dan mengubah file contoh yang dipilih, pilih Muat ulang skema untuk mendeteksi skema dengan menggunakan file contoh yang baru.

  4. Pilih tombol Simpulkan skema untuk mendeteksi skema dari file sumber di Amazon S3. Jika anda mengganti lokasi Amazon S3 atau file sampel, maka anda mesti memilih Simpulkan skema lagi untuk menyimpulkan skema menggunakan informasi baru.