Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mendefinisikan dan mengelola pengklasifikasi
Sebuah pengklasifikasi membaca data di sebuah penyimpanan data. Jika ia mengakui format data, maka ia membuat skema. Pengklasifikasi juga mengembalikan nomor kepastian untuk menunjukkan seberapa pasti pengakuan format itu.
AWS Glue menyediakan serangkaian pengklasifikasi bawaan, tetapi Anda juga dapat membuat pengklasifikasi kustom. AWS Glue memanggil pengklasifikasi kustom terlebih dahulu, dalam urutan yang Anda tentukan dalam definisi crawler Anda. Tergantung pada hasil yang dikembalikan dari pengklasifikasi kustom, AWS Glue mungkin juga akan memanggil pengklasifikasi bawaan. Jika pengklasifikasi mengembalikan certainty=1.0
selama pemrosesan, maka itu menunjukkan bahwa pengklasifikasi 100 persen yakin bahwa ia dapat membuat skema yang benar. AWS Glue kemudian menggunakan output dari pengklasifikasi itu.
Jika tidak, pengklasifikasi mengembalikan certainty=1.0
, AWS Glue menggunakan output dari pengklasifikasi yang memiliki kepastian tertinggi. Jika tidak, pengklasifikasi mengembalikan kepastian lebih besar dari 0.0
, AWS Glue mengembalikan string klasifikasi default UNKNOWN
.
Kapan saya menggunakan classifier?
Anda menggunakan pengklasifikasi ketika Anda melakukan crawling pada penyimpanan data untuk menentukan tabel metadata di AWS Glue Data Catalog. Anda dapat mengatur crawler dengan satu set pengklasifikasi yang telah diurutkan. Ketika crawler memanggil pengklasifikasi, pengklasifikasi tersebut akan menentukan apakah data diakui. Jika pengklasifikasi tidak dapat mengenali data atau tidak 100 persen yakin, maka crawler memanggil pengklasifikasi berikutnya dalam daftar untuk menentukan apakah ia dapat mengenali data tersebut.
Untuk informasi lebih lanjut tentang membuat distribusi menggunakan konsol AWS Glue, lihat Membuat pengklasifikasi menggunakan konsol AWS Glue.
Pengklasifikasi kustom
Output dari pengklasifikasi termasuk string yang menunjukkan klasifikasi atau format file (misalnya, json
) dan skema dari file tersebut. Untuk pengklasifikasi kustom, Anda menentukan logika untuk membuat skema berdasarkan jenis pengklasifikasi. Jenis pengklasifikasi termasuk mendefinisikan skema berdasarkan pola grok, XML tag, dan jalur. JSON
Jika Anda mengubah sebuah definisi pengklasifikasi, maka data yang sebelumnya di-crawling menggunakan pengklasifikasi tersebut tidak akan direklasifikasi. Crawler mempertahankan jejak data yang telah di-crawling sebelumnya. Data baru diklasifikasikan dengan pengklasifikasi yang diperbarui, yang dapat menghasilkan skema diperbarui. Jika skema data Anda telah berkembang, perbarui pengklasifikasi untuk memperhitungkan perubahan skema apa pun saat crawler Anda berjalan. Untuk mengklasifikasi ulang data untuk mengoreksi pengklasifikasi yang salah, buat sebuah crawler baru dengan pengklasifikasi yang sudah diperbarui.
Untuk informasi selengkapnya tentang membuat pengklasifikasi di AWS Glue, lihat Menulis pengklasifikasi khusus untuk beragam format data.
catatan
Jika format data Anda dikenali oleh salah satu pengklasifikasi bawaan, maka Anda tidak perlu membuat pengklasifikasi kustom.
Pengklasifikasi bawaan
AWS Gluemenyediakan pengklasifikasi bawaan untuk berbagai format, termasukJSON, log webCSV, dan banyak sistem basis data.
Jika AWS Glue tidak menemukan pengklasifikasi kustom yang sesuai dengan format input data dengan 100 persen kepastian, maka ia akan memanggil pengklasifikasi bawaan dalam urutan yang ditunjukkan dalam tabel berikut. Pengklasifikasi bawaan mengembalikan hasil untuk menunjukkan apakah format cocok (certainty=1.0
) atau tidak cocok (certainty=0.0
). Pengklasifikasi pertama yang memiliki certainty=1.0
menyediakan string klasifikasi dan skema untuk tabel metadata dalam Katalog Data Anda.
Jenis pengklasifikasi | String klasifikasi | Catatan |
---|---|---|
Apache Avro | avro |
Membaca skema pada awal file untuk menentukan formatnya. |
Apache ORC | orc |
Membaca metadata file untuk menentukan formatnya. |
Apache Parquet | parquet |
Membaca skema pada akhir file untuk menentukan formatnya. |
JSON | json |
Membaca awal file untuk menentukan formatnya. |
Biner JSON | bson |
Membaca awal file untuk menentukan formatnya. |
XML | xml |
Membaca awal file untuk menentukan format. AWS Gluemenentukan skema tabel berdasarkan XML tag dalam dokumen. Untuk informasi tentang membuat XML pengklasifikasi kustom untuk menentukan baris dalam dokumen, lihatMenulis pengklasifikasi XML khusus. |
Amazon Ion | ion |
Membaca awal file untuk menentukan formatnya. |
Log Apache gabungan | combined_apache |
Menentukan format log melalui pola grok. |
Apache log | apache |
Menentukan format log melalui pola grok. |
Log kernel Linux | linux_kernel |
Menentukan format log melalui pola grok. |
Log Microsoft | microsoft_log |
Menentukan format log melalui pola grok. |
Log Ruby | ruby_logger |
Membaca awal file untuk menentukan formatnya. |
Log Squid 3.x | squid |
Membaca awal file untuk menentukan formatnya. |
Log monitor Redis | redismonlog |
Membaca awal file untuk menentukan formatnya. |
Log Redis | redislog |
Membaca awal file untuk menentukan formatnya. |
CSV | csv |
Cek untuk pembatas berikut: koma (,), pipa (|), tab (\ t), titik koma (;), dan Ctrl-A (\ u0001). Ctrl-A adalah karakter kontrol Unicode untuk Start Of
Heading . |
Amazon Redshift | redshift |
Menggunakan JDBC koneksi untuk mengimpor metadata. |
Saya SQL | mysql |
Menggunakan JDBC koneksi untuk mengimpor metadata. |
Postgre SQL | postgresql |
Menggunakan JDBC koneksi untuk mengimpor metadata. |
Basis data Oracle | oracle |
Menggunakan JDBC koneksi untuk mengimpor metadata. |
SQLServer Microsoft | sqlserver |
Menggunakan JDBC koneksi untuk mengimpor metadata. |
Amazon DynamoDB | dynamodb |
Membaca data dari tabel DynamoDB. |
File dalam format terkompresi berikut dapat diklasifikasikan:
-
ZIP(didukung untuk arsip yang hanya berisi satu file). Perhatikan bahwa Zip tidak didukung dengan baik dalam layanan lain (karena arsip).
-
BZIP
-
GZIP
-
LZ4
-
Snappy (didukung untuk format Snappy asli standar dan Hadoop)
CSVPengklasifikasi bawaan
CSVPengklasifikasi bawaan CSV mem-parsing konten file untuk menentukan skema tabel. AWS Glue Pengklasifikasi ini memeriksa pembatas berikut:
Koma (,)
Pipa (|)
Tab (\t)
Titik koma (;)
Ctrl-A (\u0001)
Ctrl-A adalah karakter kontrol Unicode untuk
Start Of Heading
.
Untuk diklasifikasikan sebagaiCSV, skema tabel harus memiliki setidaknya dua kolom dan dua baris data. CSVPengklasifikasi menggunakan sejumlah heuristik untuk menentukan apakah header hadir dalam file tertentu. Jika pengklasifikasi tidak dapat menentukan header dari baris pertama data, maka header kolom ditampilkan sebagai col1
, col2
, col3
, dan sebagainya. CSVPengklasifikasi bawaan menentukan apakah akan menyimpulkan header dengan mengevaluasi karakteristik file berikut:
Setiap kolom dalam header potensial diuraikan sebagai tipe STRING data.
Kecuali untuk kolom terakhir, setiap kolom di header potensial memiliki konten yang kurang dari 150 karakter. Untuk memungkinkan untuk pembatas dibelakang, kolom terakhir dapat dibiarkan kosong di seluruh file.
Setiap kolom di header potensial harus memenuhi persyaratan
regex
AWS Glue untuk nama kolom.Baris header harus cukup berbeda dari baris data. Untuk menentukan ini, satu atau lebih baris harus diuraikan sebagai selain STRING jenis. Jika semua kolom bertipeSTRING, maka baris pertama data tidak cukup berbeda dari baris berikutnya untuk digunakan sebagai header.
catatan
Jika CSV pengklasifikasi bawaan tidak membuat AWS Glue tabel seperti yang Anda inginkan, Anda mungkin dapat menggunakan salah satu alternatif berikut:
Ubah nama kolom di Katalog Data, atur
SchemaChangePolicy
keLOG, dan atur konfigurasi keluaran partisiInheritFromTable
untuk menjalankan crawler future.Membuat sebuah pengklasifikasi grok kustom untuk mengurai data dan menetapkan kolom yang Anda inginkan.
CSVPengklasifikasi bawaan membuat tabel yang mereferensikan
LazySimpleSerDe
sebagai pustaka serialisasi, yang merupakan pilihan yang baik untuk inferensi tipe. Namun, jika CSV data berisi string yang dikutip, edit definisi tabel dan ubah SerDe pustaka menjadi.OpenCSVSerDe
Sesuaikan tipe apa pun yang disimpulkan keSTRING, aturSchemaChangePolicy
keLOG, dan atur konfigurasi keluaran partisi untuk menjalankan crawlerInheritFromTable
masa depan. Untuk informasi selengkapnya tentang SerDe pustaka, lihat SerDe Referensi di Panduan Pengguna Amazon Athena.