Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS Glue Data Catalog Ini adalah toko metadata teknis Anda yang persisten. Ini adalah layanan terkelola yang dapat Anda gunakan untuk menyimpan, membubuhi keterangan, dan berbagi metadata di Cloud. AWS Untuk informasi selengkapnya, lihat AWS Glue Data Catalog.
Bagian AWS Glue konsol dan beberapa antarmuka pengguna baru-baru ini diperbarui. |
Gambaran Umum
Anda dapat menggunakan tutorial ini untuk membuat yang pertama AWS Glue Katalog Data, yang menggunakan bucket Amazon S3 sebagai sumber data Anda.
Dalam tutorial ini, Anda akan melakukan hal berikut menggunakan AWS Glue konsol:
-
Buat database
-
Membuat tabel
-
Gunakan bucket Amazon S3 sebagai sumber data
Setelah menyelesaikan langkah-langkah ini, Anda akan berhasil menggunakan bucket Amazon S3 sebagai sumber data untuk mengisi AWS Glue Katalog Data.
Langkah 1: Buat database
Untuk memulai, masuk ke AWS Management Console dan buka AWS Glue konsol
Untuk membuat database menggunakan AWS Glue konsol:
-
Dalam AWS Glue konsol, pilih Database di bawah Katalog data dari menu sebelah kiri.
-
Pilih Add database (Tambahkan basis data).
-
Di halaman Buat database, masukkan nama untuk database. Di bagian Lokasi - opsional, atur lokasi URI untuk digunakan oleh klien Katalog Data. Jika Anda tidak tahu ini, Anda dapat melanjutkan dengan membuat database.
-
(Opsional). Masukkan deskripsi untuk database.
-
Pilih Buat basis data.
Selamat, Anda baru saja menyiapkan database pertama Anda menggunakan AWS Glue konsol. Database baru Anda akan muncul dalam daftar database yang tersedia. Anda dapat mengedit database dengan memilih nama database dari dasbor Database.
Langkah selanjutnya
Cara lain untuk membuat database:
Anda baru saja membuat database menggunakan AWS Glue konsol, tetapi ada cara lain untuk membuat database:
-
Anda dapat menggunakan crawler untuk membuat database dan tabel untuk Anda secara otomatis. Untuk menyiapkan database menggunakan crawler, lihat Bekerja dengan Crawler di AWS Glue Konsol.
-
Anda dapat menggunakan AWS CloudFormation template. Lihat Membuat AWS Glue Sumber Daya Menggunakan AWS Glue Data Catalog Template.
-
Anda juga dapat membuat database menggunakan AWS Glue Operasi API basis data.
Untuk membuat database menggunakan
create
operasi, struktur permintaan dengan memasukkan parameterDatabaseInput
(wajib).Sebagai contoh:
Untuk informasi selengkapnya tentang tipe, struktur, dan operasi data API Database, lihat API Database.
Langkah selanjutnya
Di bagian berikutnya, Anda akan membuat tabel dan menambahkan tabel itu ke database Anda.
Anda juga dapat menjelajahi pengaturan dan izin untuk Katalog Data Anda. Lihat Bekerja dengan Pengaturan Katalog Data di AWS Glue Konsol.
Langkah 2. Membuat tabel
Pada langkah ini, Anda membuat tabel menggunakan AWS Glue konsol.
-
Dalam AWS Glue konsol, pilih Tabel di menu sebelah kiri.
-
Pilih Tambahkan tabel.
-
Atur properti tabel Anda dengan memasukkan nama untuk tabel Anda di detail Tabel.
-
Di bagian Database, pilih database yang Anda buat di Langkah 1 dari menu drop-down.
-
Di bagian Tambahkan penyimpanan data, S3 akan dipilih secara default sebagai jenis sumber.
-
Untuk Data terletak di, pilih Jalur yang ditentukan di akun lain.
-
Salin dan tempel jalur untuk bidang input jalur Sertakan:
s3://crawler-public-us-west-2/flight/2016/csv/
-
Di bagian Format data, untuk Klasifikasi, pilih CSV. Dan untuk Delimiter, pilih koma (,). Pilih Berikutnya.
-
Anda diminta untuk mendefinisikan skema. Sebuah skema mendefinisikan struktur dan format catatan data. Pilih Tambahkan kolom. (Untuk informasi lebih lanjut, lihat Daftar skema).
-
Tentukan properti kolom:
-
Masukkan nama kolom.
-
Untuk tipe Kolom, 'string' sudah dipilih secara default.
-
Untuk nomor Kolom, '1' sudah dipilih secara default.
-
Pilih Tambahkan.
-
-
Anda diminta untuk menambahkan indeks partisi. Ini bersifat opsional. Untuk melewati langkah ini, pilih Berikutnya.
-
Ringkasan properti tabel ditampilkan. Jika semuanya terlihat seperti yang diharapkan, pilih Buat. Jika tidak, pilih Kembali dan lakukan pengeditan sesuai kebutuhan.
Selamat, Anda telah berhasil membuat tabel secara manual dan mengaitkannya ke database. Tabel yang baru Anda buat akan muncul di dasbor Tabel. Dari dasbor, Anda dapat memodifikasi dan mengelola semua tabel Anda.
Untuk informasi selengkapnya, lihat Bekerja dengan Tabel di AWS Glue Konsol.
Langkah selanjutnya
Langkah selanjutnya
Sekarang setelah Katalog Data diisi, Anda dapat mulai menulis pekerjaan di AWS Glue. Lihat Membangun pekerjaan ETL visual dengan AWS Glue Studio.
Selain menggunakan konsol, ada cara lain untuk menentukan tabel di Katalog Data termasuk:
-
Menggunakan AWS CLI, Boto3, atau bahasa definisi data (DDL)
-
Berikut ini adalah contoh bagaimana Anda dapat menggunakan CLI, Boto3, atau DDL untuk menentukan tabel berdasarkan file flights_data.csv yang sama dari bucket S3 yang Anda gunakan dalam tutorial.
Lihat dokumentasi tentang cara menyusun AWS CLI perintah. Contoh CLI berisi sintaks JSON untuk nilai 'aws glue create-table --table-input'.
{ "Name": "flights_data_cli", "StorageDescriptor": { "Columns": [ { "Name": "year", "Type": "bigint" }, { "Name": "quarter", "Type": "bigint" } ], "Location": "s3://crawler-public-us-west-2/flight/2016/csv", "InputFormat": "org.apache.hadoop.mapred.TextInputFormat", "OutputFormat": "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat", "Compressed": false, "NumberOfBuckets": -1, "SerdeInfo": { "SerializationLibrary": "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe", "Parameters": { "field.delim": ",", "serialization.format": "," } } }, "PartitionKeys": [ { "Name": "mon", "Type": "string" } ], "TableType": "EXTERNAL_TABLE", "Parameters": { "EXTERNAL": "TRUE", "classification": "csv", "columnsOrdered": "true", "compressionType": "none", "delimiter": ",", "skip.header.line.count": "1", "typeOfData": "file" } }