API pengklasifikasi - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

API pengklasifikasi

API Pengklasifikasi menjelaskan tipe data AWS Glue pengklasifikasi, dan menyertakan API untuk membuat, menghapus, memperbarui, dan mencantumkan pengklasifikasi.

Jenis Data

Struktur pengklasifikasi

Pengklasifikasi dipicu selama tugas melakukan perayapan. Sebuah pengklasifikasi memeriksa apakah file yang diberikan dalam format yang dapat ditanganinya. Jika ya, maka pengklasifikasi menciptakan sebuah skema dalam bentuk objek StructType yang cocok dengan format data tersebut.

Anda dapat menggunakan pengklasifikasi standar yang disediakan oleh AWS Glue, atau Anda dapat menulis pengklasifikasi Anda sendiri untuk mengkategorikan sumber data Anda dengan sebaik-baiknya dan menentukan skema yang sesuai untuk digunakan untuk mereka. Sebuah pengklasifikasi dapat berupa pengklasifikasi grok, pengklasifikasi XML, pengklasifikasi JSON, atau pengklasifikasi CSV kustom, sebagaimana ditentukan dalam salah satu bidang di objek Classifier.

Bidang
  • GrokClassifier — Sebuah objek GrokClassifier.

    Sebuah pengklasifikasi yang menggunakan grok.

  • XMLClassifier — Sebuah objek XMLClassifier.

    Sebuah pengklasifikasi untuk konten XML.

  • JsonClassifier — Sebuah objek JsonClassifier.

    Sebuah pengklasifikasi untuk konten JSON.

  • CsvClassifier — Sebuah objek CsvClassifier.

    Pengklasifikasi untuk nilai yang dipisahkan koma (CSV).

GrokClassifier struktur

Pengklasifikasi yang menggunakan pola grok.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • ClassificationWajib: String UTF-8.

    Pengenal format data yang cocok dengan pengklasifikasi, seperti Twitter, JSON, log Omniture, dan sebagainya.

  • CreationTime — Stempel waktu.

    Waktu pada daat pengklasifikasi ini didaftarkan.

  • LastUpdated — Stempel waktu.

    Waktu pada saat pengklasifikasi ini terakhir diperbarui.

  • Version — Nomor (panjang).

    Versi dari pengklasifikasi ini.

  • GrokPatternWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 2048 byte, yang cocok dengan A Logstash Grok string pattern.

    Pola grok diterapkan ke penyimpanan data oleh pengklasifikasi ini. Untuk informasi selengkapnya, lihat pola bawaan dalam Menulis Pengklasifikasi Kustom.

  • CustomPatterns — String UTF-8, sepanjang tidak lebih dari 16000, yang cocok dengan URI address multi-line string pattern.

    Pola grok kustom opsional ditentukan oleh pengklasifikasi ini. Untuk informasi selengkapnya, lihat pola kustom dalam Menulis Pengklasifikasi Kustom.

Struktur XMLClassifier

Sebuah pengklasifikasi untuk konten XML.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • ClassificationWajib: String UTF-8.

    Sebuah pengenal format data yang cocok dengan pengklasifikasi.

  • CreationTime — Stempel waktu.

    Waktu pada daat pengklasifikasi ini didaftarkan.

  • LastUpdated — Stempel waktu.

    Waktu pada saat pengklasifikasi ini terakhir diperbarui.

  • Version — Nomor (panjang).

    Versi dari pengklasifikasi ini.

  • RowTag – String UTF-8.

    Tag XML yang menunjuk elemen yang berisi setiap catatan dalam dokumen XML yang diurai. Ini tidak dapat mengidentifikasi elemen penutup diri (ditutup oleh />). Elemen baris kosong yang hanya berisi atribut dapat diurai selama itu berakhir dengan tag penutup (misalnya, <row item_a="A" item_b="B"></row> baik-baik saja, tapi <row item_a="A" item_b="B" /> tidak).

JsonClassifier struktur

Sebuah pengklasifikasi untuk konten JSON.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • CreationTime — Stempel waktu.

    Waktu pada daat pengklasifikasi ini didaftarkan.

  • LastUpdated — Stempel waktu.

    Waktu pada saat pengklasifikasi ini terakhir diperbarui.

  • Version — Nomor (panjang).

    Versi dari pengklasifikasi ini.

  • JsonPathWajib: String UTF-8.

    JsonPathString yang mendefinisikan data JSON untuk pengklasifikasi untuk mengklasifikasikan. AWS Gluemendukung subset dari JsonPath, seperti yang dijelaskan dalam Menulis JsonPath Pengklasifikasi Kustom.

CsvClassifier struktur

Pengklasifikasi untuk konten CSV kustom.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • CreationTime — Stempel waktu.

    Waktu pada daat pengklasifikasi ini didaftarkan.

  • LastUpdated — Stempel waktu.

    Waktu pada saat pengklasifikasi ini terakhir diperbarui.

  • Version — Nomor (panjang).

    Versi dari pengklasifikasi ini.

  • Delimiter — String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 1 byte, yang cocok dengan Custom string pattern #10.

    Sebuah simbol kustom untuk menunjukkan apa yang memisahkan masing-masing entri kolom pada baris.

  • QuoteSymbol — String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 1 byte, yang cocok dengan Custom string pattern #10.

    Sebuah simbol kustom untuk menunjukkan apa yang menggabungkan konten ke dalam satu nilai kolom tunggal. Ia harus berbeda dari pembatas kolom.

  • ContainsHeader – String UTF-8 (nilai yang valid: UNKNOWN | PRESENT | ABSENT).

    Menunjukkan apakah file CSV berisi sebuah header.

  • Header – Susunan string UTF-8.

    Sebuah daftar string yang mewakili nama kolom.

  • DisableValueTrimming – Boolean.

    Menentukan tidak akan memotong nilai sebelum mengidentifikasi jenis nilai kolom. Nilai default-nya adalah true.

  • AllowSingleColumn – Boolean.

    Memungkinkan pemrosesan file yang hanya berisi satu kolom.

  • CustomDatatypeConfigured – Boolean.

    Mengaktifkan tipe data khusus untuk dikonfigurasi.

  • CustomDatatypes – Susunan string UTF-8.

    Daftar tipe data khusus termasuk “BINARY”, “BOOLEAN”, “DATE”, “DECIMAL”, “DOUBLE”, “FLOAT”, “INT”, “LONG”, “SHORT”, “STRING”, “TIMESTAMP”.

  • Serde – String UTF-8 (nilai yang valid: OpenCSVSerDe | LazySimpleSerDe | None).

    Menetapkan SerDe untuk memproses CSV di classifier, yang akan diterapkan dalam Katalog Data. Nilai yang valid adalah OpenCSVSerDe, LazySimpleSerDe, dan None. Anda dapat menentukan None nilai saat Anda ingin crawler melakukan deteksi.

CreateGrokClassifierRequest struktur

Menentukan pengklasifikasi grok untuk CreateClassifier yang akan dibuat.

Bidang
  • ClassificationWajib: String UTF-8.

    Pengidentifikasi format data yang cocok dengan pengklasifikasi, seperti Twitter, JSON, log Omniture, Amazon CloudWatch Logs, dan sebagainya.

  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi baru.

  • GrokPatternWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 2048 byte, yang cocok dengan A Logstash Grok string pattern.

    Pola grok yang digunakan oleh pengklasifikasi ini.

  • CustomPatterns — String UTF-8, sepanjang tidak lebih dari 16000, yang cocok dengan URI address multi-line string pattern.

    Pola grok kustom opsional yang digunakan oleh pengklasifikasi ini.

UpdateGrokClassifierRequest struktur

Menentukan pengklasifikasi grok untuk memperbarui ketika diberikan ke UpdateClassifier.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama GrokClassifier.

  • Classification – String UTF-8.

    Pengidentifikasi format data yang cocok dengan pengklasifikasi, seperti Twitter, JSON, log Omniture, Amazon CloudWatch Logs, dan sebagainya.

  • GrokPattern — String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 2048 byte, yang cocok dengan A Logstash Grok string pattern.

    Pola grok yang digunakan oleh pengklasifikasi ini.

  • CustomPatterns — String UTF-8, sepanjang tidak lebih dari 16000, yang cocok dengan URI address multi-line string pattern.

    Pola grok kustom opsional yang digunakan oleh pengklasifikasi ini.

struktur ClassifierRequest CreateXML

Menentukan pengklasifikasi XML untuk CreateClassifier yang akan dibuat.

Bidang
  • ClassificationWajib: String UTF-8.

    Sebuah pengenal format data yang cocok dengan pengklasifikasi.

  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • RowTag – String UTF-8.

    Tag XML yang menunjuk elemen yang berisi setiap catatan dalam dokumen XML yang diurai. Ini tidak dapat mengidentifikasi elemen penutup diri (ditutup oleh />). Elemen baris kosong yang hanya berisi atribut dapat diurai selama itu berakhir dengan tag penutup (misalnya, <row item_a="A" item_b="B"></row> baik-baik saja, tapi <row item_a="A" item_b="B" /> tidak).

struktur ClassifierRequest UpdateXML

Menentukan pengklasifikasi XML yang akan diperbarui.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • Classification – String UTF-8.

    Sebuah pengenal format data yang cocok dengan pengklasifikasi.

  • RowTag – String UTF-8.

    Tag XML yang menunjuk elemen yang berisi setiap catatan dalam dokumen XML yang diurai. Ini tidak dapat mengidentifikasi elemen penutup mandiri (ditutup oleh />). Elemen baris kosong yang hanya berisi atribut dapat diurai selama diakhiri berakhir dengan tag penutup (misalnya, <row item_a="A" item_b="B"></row> tidak apa-apa, tapi <row item_a="A" item_b="B" /> tidak boleh).

CreateJsonClassifierRequest struktur

Menentukan pengklasifikasi JSON untuk CreateClassifier yang akan dibuat.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • JsonPathWajib: String UTF-8.

    JsonPathString yang mendefinisikan data JSON untuk pengklasifikasi untuk mengklasifikasikan. AWS Gluemendukung subset dari JsonPath, seperti yang dijelaskan dalam Menulis JsonPath Pengklasifikasi Kustom.

UpdateJsonClassifierRequest struktur

Menentukan pengklasifikasi JSON yang akan diperbarui.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • JsonPath – String UTF-8.

    JsonPathString yang mendefinisikan data JSON untuk pengklasifikasi untuk mengklasifikasikan. AWS Gluemendukung subset dari JsonPath, seperti yang dijelaskan dalam Menulis JsonPath Pengklasifikasi Kustom.

CreateCsvClassifierRequest struktur

Menentukan pengklasifikasi CSV kustom untuk CreateClassifier yang akan dibuat.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • Delimiter — String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 1 byte, yang cocok dengan Custom string pattern #10.

    Sebuah simbol kustom untuk menunjukkan apa yang memisahkan masing-masing entri kolom pada baris.

  • QuoteSymbol — String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 1 byte, yang cocok dengan Custom string pattern #10.

    Sebuah simbol kustom untuk menunjukkan apa yang menggabungkan konten ke dalam satu nilai kolom tunggal. Harus berbeda dari pembatas kolom.

  • ContainsHeader – String UTF-8 (nilai yang valid: UNKNOWN | PRESENT | ABSENT).

    Menunjukkan apakah file CSV berisi sebuah header.

  • Header – Susunan string UTF-8.

    Sebuah daftar string yang mewakili nama kolom.

  • DisableValueTrimming – Boolean.

    Menentukan tidak akan memotong nilai sebelum mengidentifikasi jenis nilai kolom. Nilai default-nya adalah BETUL.

  • AllowSingleColumn – Boolean.

    Memungkinkan pemrosesan file yang hanya berisi satu kolom.

  • CustomDatatypeConfigured – Boolean.

    Mengaktifkan konfigurasi tipe data kustom.

  • CustomDatatypes – Susunan string UTF-8.

    Membuat daftar tipe data kustom yang didukung.

  • Serde – String UTF-8 (nilai yang valid: OpenCSVSerDe | LazySimpleSerDe | None).

    Menetapkan SerDe untuk memproses CSV di classifier, yang akan diterapkan dalam Katalog Data. Nilai yang valid adalah OpenCSVSerDe, LazySimpleSerDe, dan None. Anda dapat menentukan None nilai saat Anda ingin crawler melakukan deteksi.

UpdateCsvClassifierRequest struktur

Menentukan pengklasifikasi CSV kustom yang akan diperbarui.

Bidang
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi.

  • Delimiter — String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 1 byte, yang cocok dengan Custom string pattern #10.

    Sebuah simbol kustom untuk menunjukkan apa yang memisahkan masing-masing entri kolom pada baris.

  • QuoteSymbol — String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 1 byte, yang cocok dengan Custom string pattern #10.

    Sebuah simbol kustom untuk menunjukkan apa yang menggabungkan konten ke dalam satu nilai kolom tunggal. Ia harus berbeda dari pembatas kolom.

  • ContainsHeader – String UTF-8 (nilai yang valid: UNKNOWN | PRESENT | ABSENT).

    Menunjukkan apakah file CSV berisi sebuah header.

  • Header – Susunan string UTF-8.

    Sebuah daftar string yang mewakili nama kolom.

  • DisableValueTrimming – Boolean.

    Menentukan tidak akan memotong nilai sebelum mengidentifikasi jenis nilai kolom. Nilai default-nya adalah BETUL.

  • AllowSingleColumn – Boolean.

    Memungkinkan pemrosesan file yang hanya berisi satu kolom.

  • CustomDatatypeConfigured – Boolean.

    Menentukan konfigurasi tipe data kustom.

  • CustomDatatypes – Susunan string UTF-8.

    Menentukan daftar tipe data kustom didukung.

  • Serde – String UTF-8 (nilai yang valid: OpenCSVSerDe | LazySimpleSerDe | None).

    Menetapkan SerDe untuk memproses CSV di classifier, yang akan diterapkan dalam Katalog Data. Nilai yang valid adalah OpenCSVSerDe, LazySimpleSerDe, dan None. Anda dapat menentukan None nilai saat Anda ingin crawler melakukan deteksi.

Operasi

CreateClassifier tindakan (Python: create_classifier)

Menciptakan pengklasifikasi di akun pengguna. Bisa berupa sebuah GrokClassifier, sebuah XMLClassifier, sebuah JsonClassifier, atau CsvClassifier, tergantung pada bidang permintaan yang ada.

Permintaan
  • GrokClassifier — Sebuah objek CreateGrokClassifierRequest.

    Sebuah objek GrokClassifier yang menentukan pengklasifikasi yang akan dibuat.

  • XMLClassifier — Sebuah objek CreateXML ClassifierRequest.

    Sebuah objek XMLClassifier yang menentukan pengklasifikasi yang akan dibuat.

  • JsonClassifier — Sebuah objek CreateJsonClassifierRequest.

    Sebuah objek JsonClassifier yang menentukan pengklasifikasi yang akan dibuat.

  • CsvClassifier — Sebuah objek CreateCsvClassifierRequest.

    Sebuah objek CsvClassifier yang menentukan pengklasifikasi yang akan dibuat.

Response
  • Tidak ada parameter Respons.

Kesalahan
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

DeleteClassifier tindakan (Python: delete_classifier)

Menghapus sebuah pengklasifikasi dari Katalog Data.

Permintaan
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi yang akan dihapus.

Response
  • Tidak ada parameter Respons.

Kesalahan
  • EntityNotFoundException

  • OperationTimeoutException

GetClassifier tindakan (Python: get_classifier)

Mengambil sebuah pengklasifikasi berdasarkan nama.

Permintaan
  • NameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama pengklasifikasi yang akan diambil.

Response
  • Classifier — Sebuah objek Pengklasifikasi.

    Pengklasifikasi yang diminta.

Kesalahan
  • EntityNotFoundException

  • OperationTimeoutException

GetClassifiers tindakan (Python: get_classifiers)

Mencantumkan semua objek pengklasifikasi dalam Katalog Data.

Permintaan
  • MaxResults — Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.

    Ukuran daftar untuk yang akan dikembalikan (opsional).

  • NextToken – String UTF-8.

    Sebuah token kelanjutan opsional.

Response
  • Classifiers – Susunan objek Pengklasifikasi.

    Daftar objek pengklasifikasi yang diminta.

  • NextToken – String UTF-8.

    Sebuah token kelanjutan.

Kesalahan
  • OperationTimeoutException

UpdateClassifier tindakan (Python: update_classifier)

Memodifikasi pengklasifikasi yang ada (sebuah GrokClassifier, sebuah XMLClassifier, sebuah JsonClassifier, atau CsvClassifier, tergantung pada bidang mana yang ada).

Permintaan
Response
  • Tidak ada parameter Respons.

Kesalahan
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • OperationTimeoutException