Perayap API - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perayap API

Crawler API menjelaskan tipe data AWS Glue crawler, bersama dengan API untuk membuat, menghapus, memperbarui, dan mencantumkan crawler.

Jenis data

Struktur perayap

Menentukan sebuah program crawler yang meneliti sumber data dan menggunakan pengklasifikasi untuk mencoba menentukan skemanya. Jika berhasil, crawler mencatat metadata yang terkait sumber data di AWS Glue Data Catalog.

Bidang
  • Name- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string pattern

    Nama perayap.

  • Role— UTF -8 string.

    Nama Sumber Daya Amazon (ARN) IAM peran yang digunakan untuk mengakses sumber daya pelanggan, seperti data Amazon Simple Storage Service (Amazon S3).

  • Targets — Sebuah objek CrawlerTargets.

    Sebuah sekumpulan target yang akan dilakukan perayapan padanya.

  • DatabaseName— UTF -8 string.

    Nama basis data tempat output crawler disimpan.

  • Description — String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.

    Deskripsi crawler.

  • Classifiers— Sebuah array dari UTF -8 string.

    Daftar string UTF -8 yang menentukan pengklasifikasi kustom yang terkait dengan crawler.

  • RecrawlPolicy — Sebuah objek RecrawlPolicy.

    Sebuah kebijakan yang menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.

  • SchemaChangePolicy — Sebuah objek SchemaChangePolicy.

    Kebijakan yang menentukan perilaku pembaruan dan penghapusan untuk crawler.

  • LineageConfiguration — Sebuah objek LineageConfiguration.

    Sebuah konfigurasi yang menentukan apakah garis keturunan data diaktifkan untuk crawler.

  • State— UTF -8 string (nilai valid: READY | RUNNING |STOPPING).

    Menunjukkan apakah crawler sedang berjalan, atau apakah eksekusi-nya ditunda.

  • TablePrefix- UTF -8 string, panjangnya tidak lebih dari 128 byte.

    Prefiks ditambahkan ke nama tabel yang dibuat.

  • Schedule — Sebuah objek Jadwal.

    Untuk crawler terjadwal, jadwal pada saat crawler berjalan.

  • CrawlElapsedTime — Nomor (panjang).

    Jika crawler berjalan, berisi total waktu yang berlalu sejak perayapan terakhir dimulai.

  • CreationTime — Stempel waktu.

    Waktu saat crawler diciptakan.

  • LastUpdated — Stempel waktu.

    Waktu saat crawler terakhir diperbarui.

  • LastCrawl — Sebuah objek LastCrawlInfo.

    Status perayapan terakhir, dan kemungkinan kesalahan informasi jika terjadi kesalahan.

  • Version — Nomor (panjang).

    Versi crawler.

  • Configuration— UTF -8 string.

    Informasi konfigurasi perayap. JSONString berversi ini memungkinkan pengguna untuk menentukan aspek perilaku crawler. Untuk informasi selengkapnya, lihat Menyetel opsi konfigurasi crawler.

  • CrawlerSecurityConfiguration- UTF -8 string, panjangnya tidak lebih dari 128 byte.

    Nama struktur SecurityConfiguration yang akan digunakan oleh perayap ini.

  • LakeFormationConfiguration — Sebuah objek LakeFormationConfiguration.

    Menentukan apakah crawler harus menggunakan AWS Lake Formation kredensyal untuk crawler, bukan kredensyal peran. IAM

Struktur jadwal

Sebuah objek penjadwalan menggunakan pernyataan cron untuk menjadwalkan sebuah peristiwa.

Bidang
  • ScheduleExpression— UTF -8 string.

    Sebuah ekspresi cron yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Misalnya, untuk menjalankan sesuatu setiap hari pada pukul 12:15UTC, Anda akan menentukan:cron(15 12 * * ? *).

  • State— UTF -8 string (nilai valid: SCHEDULED | NOT_SCHEDULED |TRANSITIONING).

    Status jadwal.

CrawlerTargets struktur

Menentukan data yang disimpan ke perayapan.

Bidang
  • S3Targets – Susunan objek S3Target.

    Menentukan target Amazon Simple Storage Service (Amazon S3).

  • JdbcTargets – Susunan objek JdbcTarget.

    Menentukan target JDBC.

  • MongoDBTargets – Susunan objek M ongoDBTarget.

    Menentukan target Amazon DocumentDB atau MongoDB.

  • DynamoDBTargets – Susunan objek D ynamoDBTarget.

    Menentukan target Amazon DynamoDB.

  • CatalogTargets – Susunan objek CatalogTarget.

    Menentukan AWS Glue Data Catalog target.

  • DeltaTargets – Susunan objek DeltaTarget.

    Menentukan target penyimpanan data Delta.

  • IcebergTargets – Susunan objek IcebergTarget.

    Menentukan target penyimpanan data Apache Iceberg.

  • HudiTargets – Susunan objek HudiTarget.

    Menentukan target penyimpanan data Apache Hudi.

Struktur S3Target

Menentukan penyimpanan data dalam Amazon Simple Storage Service (Amazon S3).

Bidang
  • Path— UTF -8 string.

    Jalur ke target Amazon S3.

  • Exclusions— Sebuah array dari UTF -8 string.

    Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.

  • ConnectionName— UTF -8 string.

    Nama koneksi yang memungkinkan pekerjaan atau crawler untuk mengakses data di Amazon S3 dalam lingkungan Amazon Virtual Private Cloud (AmazonVPC).

  • SampleSize — Nomor (bilangan bulat).

    Menetapkan jumlah file di setiap folder daun yang akan di-crawl saat melakukan perayapan pada file sampel dalam set data. Jika tidak diatur, maka semua file di-crawl. Nilai yang valid adalah bilangan bulat antara 1 dan 249.

  • EventQueueArn— UTF -8 string.

    Amazon yang valid SQSARN. Misalnya, arn:aws:sqs:region:account:sqs.

  • DlqEventQueueArn— UTF -8 string.

    Surat mati SQS ARN Amazon yang valid. Misalnya, arn:aws:sqs:region:account:deadLetterQueue.

Struktur S3 DeltaCatalogTarget

Menentukan target yang menulis ke sumber data Delta Lake di Katalog AWS Glue Data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #45

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #43

    Nama tabel dalam database untuk menulis ke.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #43

    Nama database untuk menulis.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #43

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #43

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 DeltaDirectTarget

Menentukan target yang menulis ke sumber data Delta Lake di. Amazon S3

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #45

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Path- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #43

    Jalur Amazon S3 dari sumber data Delta Lake Anda untuk menulis.

  • Compression- Diperlukan: UTF -8 string (nilai valid: uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • FormatDiperlukan: UTF -8 string (nilai valid: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Menentukan format output data untuk target.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #43

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #43

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

JdbcTarget struktur

Menentukan penyimpanan JDBC data untuk crawl.

Bidang
  • ConnectionName— UTF -8 string.

    Nama koneksi yang akan digunakan untuk terhubung ke JDBC target.

  • Path— UTF -8 string.

    Jalan JDBC target.

  • Exclusions— Sebuah array dari UTF -8 string.

    Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.

  • EnableAdditionalMetadata— Sebuah array dari UTF -8 string.

    Tentukan nilai RAWTYPES atau COMMENTS untuk mengaktifkan metadata tambahan dalam respons tabel. RAWTYPESmenyediakan tipe data tingkat asli. COMMENTSmemberikan komentar yang terkait dengan kolom atau tabel dalam database.

    Jika Anda tidak memerlukan metadata tambahan, biarkan bidang kosong.

ongoDBTarget Struktur M

Menentukan penyimpanan data Amazon DocumentDB atau MongoDB yang akan di-crawl.

Bidang
  • ConnectionName— UTF -8 string.

    Nama koneksi yang akan digunakan untuk menghubungkan ke target Amazon DocumentDB atau MongoDB.

  • Path— UTF -8 string.

    Path target Amazon DocumentDB atau MongoDB target (basis data/koleksi).

  • ScanAll – Boolean.

    Menunjukkan apakah akan memindai semua catatan, atau mengambil sampel baris dari tabel. Memindai semua catatan dapat memakan waktu lama ketika tabel tersebut bukan merupakan tabel throughput tinggi.

    Sebuah nilai true berarti memindai semua catatan, sementara nilai false berarti mengambil sampel catatan. Jika tidak ada nilai yang ditentukan, nilai defaultnya menjadi true.

ynamoDBTarget Struktur D

Menentukan tabel Amazon DynamoDB untuk bergerak.

Bidang
  • Path— UTF -8 string.

    Nama dari tabel DynamoDB untuk bergerak.

  • scanAll – Boolean.

    Menunjukkan apakah akan memindai semua catatan, atau mengambil sampel baris dari tabel. Memindai semua catatan dapat memakan waktu lama ketika tabel tersebut bukan merupakan tabel throughput tinggi.

    Sebuah nilai true berarti memindai semua catatan, sementara nilai false berarti mengambil sampel catatan. Jika tidak ada nilai yang ditentukan, nilai defaultnya menjadi true.

  • scanRate — Nomor (ganda).

    Persentase unit kapasitas baca yang dikonfigurasi untuk digunakan oleh AWS Glue crawler. Unit kapasitas baca adalah istilah yang didefinisikan oleh DynamoDB, dan merupakan nilai numerik yang bertindak sebagai tingkat pembatar untuk jumlah baca yang dapat dilakukan pada tabel tersebut per detik.

    Nilai-nilai yang valid adalah nol atau nilai antara 0,1 sampai 1,5. Nilai nol digunakan ketika pengguna tidak memberikan nilai, dan default-nya menjadi 0,5 Unit Kapasitas Baca yang dikonfigurasi (untuk tabel yang disediakan), atau maksimal 0,25 Unit Kapasitas Baca yang dikonfigurasi (untuk tabel yang menggunakan mode sesuai permintaan).

DeltaTarget struktur

Menentukan penyimpanan data Delta untuk merayapi satu atau lebih tabel Delta.

Bidang
  • DeltaTables— Sebuah array dari UTF -8 string.

    Daftar jalur Amazon S3 ke tabel Delta.

  • ConnectionName— UTF -8 string.

    Nama koneksi yang akan digunakan untuk terhubung ke target tabel Delta.

  • WriteManifest – Boolean.

    Menentukan apakah akan menulis file manifes ke jalur tabel Delta.

  • CreateNativeDeltaTable – Boolean.

    Menentukan apakah crawler akan membuat tabel asli, untuk memungkinkan integrasi dengan mesin kueri yang mendukung kueri log transaksi Delta secara langsung.

IcebergTarget struktur

Menentukan sumber data Apache Iceberg di mana tabel Iceberg disimpan dalam. Amazon S3

Bidang
  • Paths— Sebuah array dari UTF -8 string.

    Satu atau beberapa Amazon S3 jalur yang berisi folder metadata Iceberg sebagai. s3://bucket/prefix

  • ConnectionName— UTF -8 string.

    Nama koneksi yang digunakan untuk terhubung ke target Gunung Es.

  • Exclusions— Sebuah array dari UTF -8 string.

    Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.

  • MaximumTraversalDepth — Nomor (bilangan bulat).

    Kedalaman maksimum Amazon S3 jalur yang dapat dilalui crawler untuk menemukan folder metadata Iceberg di jalur Anda. Amazon S3 Digunakan untuk membatasi waktu berjalan crawler.

HudiTarget struktur

Menentukan sumber data Apache Hudi.

Bidang
  • Paths— Sebuah array dari UTF -8 string.

    Sebuah array string Amazon S3 lokasi untuk Hudi, masing-masing menunjukkan folder root dengan mana file metadata untuk tabel Hudi berada. Folder Hudi mungkin terletak di folder anak dari folder root.

    Crawler akan memindai semua folder di bawah jalur untuk folder Hudi.

  • ConnectionName— UTF -8 string.

    Nama koneksi yang digunakan untuk terhubung ke target Hudi. Jika file Hudi Anda disimpan dalam bucket yang memerlukan VPC otorisasi, Anda dapat mengatur properti koneksi mereka di sini.

  • Exclusions— Sebuah array dari UTF -8 string.

    Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.

  • MaximumTraversalDepth — Nomor (bilangan bulat).

    Kedalaman maksimum Amazon S3 jalur yang dapat dilalui crawler untuk menemukan folder metadata Hudi di jalur Anda. Amazon S3 Digunakan untuk membatasi waktu berjalan crawler.

CatalogTarget struktur

Menentukan AWS Glue Data Catalog target.

Bidang
  • DatabaseName- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama database yang akan disinkronkan.

  • TablesDiperlukan: Sebuah array UTF -8 string, setidaknya 1 string.

    Daftar tabel yang akan disinkronkan.

  • ConnectionName— UTF -8 string.

    Nama sambungan untuk tabel Katalog Data yang didukung Amazon S3 menjadi target crawl saat menggunakan jenis Catalog koneksi yang dipasangkan dengan tipe Sambungan. NETWORK

  • EventQueueArn— UTF -8 string.

    Amazon yang valid SQSARN. Misalnya, arn:aws:sqs:region:account:sqs.

  • DlqEventQueueArn— UTF -8 string.

    Surat mati SQS ARN Amazon yang valid. Misalnya, arn:aws:sqs:region:account:deadLetterQueue.

CrawlerMetrics struktur

Metrik untuk sebuah crawler yang ditentukan.

Bidang
  • CrawlerName- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string pattern

    Nama crawler.

  • TimeLeftSeconds — Nomor (ganda), tidak lebih dari Tidak Ada.

    Perkiraan waktu tersisa untuk menyelesaikan perayapan yang berjalan.

  • StillEstimating – Boolean.

    BETUL jika crawler masih memperkirakan berapa lama waktu yang dibutuhkan untuk menyelesaikan eksekusi ini.

  • LastRuntimeSeconds — Nomor (ganda), tidak lebih dari Tidak Ada.

    Durasi eksekusi terbaru oleh crawler, dalam hitungan detik.

  • MedianRuntimeSeconds — Nomor (ganda), tidak lebih dari Tidak Ada.

    Durasi median dari eksekusi crawler ini, dalam hitungan detik.

  • TablesCreated — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah tabel yang dibuat oleh crawler ini.

  • TablesUpdated — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah tabel yang diperbarui oleh crawler ini.

  • TablesDeleted — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah tabel yang dihapus oleh crawler ini.

CrawlerHistory struktur

Berisi informasi untuk menjalankan crawler.

Bidang
  • CrawlId— UTF -8 string.

    UUIDPengenal untuk setiap crawl.

  • State— UTF -8 string (nilai valid: RUNNING | | COMPLETED FAILED |STOPPED).

    Keadaan merangkak.

  • StartTime — Stempel waktu.

    Tanggal dan waktu saat perayapan dimulai.

  • EndTime — Stempel waktu.

    Tanggal dan waktu di mana perayapan berakhir.

  • Summary- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string pattern

    Ringkasan run untuk crawl tertentu diJSON. Berisi tabel katalog dan partisi yang ditambahkan, diperbarui, atau dihapus.

  • ErrorMessage — String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.

    Jika terjadi kesalahan, pesan kesalahan terkait dengan crawl.

  • LogGroup- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log group string pattern

    Grup log yang dikaitkan dengan perayapan.

  • LogStream- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log-stream string pattern

    Pengaliran log yang dikaitkan dengan perayapan.

  • MessagePrefix- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string pattern

    Awalan untuk CloudWatch pesan tentang crawl ini.

  • DPUHour — Nomor (ganda), tidak lebih dari Tidak Ada.

    Jumlah unit pemrosesan data (DPU) yang digunakan dalam jam untuk crawl.

CrawlsFilter struktur

Daftar bidang, pembanding, dan nilai yang dapat Anda gunakan untuk memfilter crawler berjalan untuk crawler tertentu.

Bidang
  • FieldName— UTF -8 string (nilai valid: CRAWL_ID | | STATE | START_TIME END_TIME |DPU_HOUR).

    Kunci yang digunakan untuk memfilter crawler berjalan untuk crawler tertentu. Nilai yang valid untuk masing-masing nama bidang adalah:

    • CRAWL_ID: Sebuah string yang mewakili UUID identifier untuk crawl.

    • STATE: Sebuah string yang mewakili status crawl.

    • START_TIMEdanEND_TIME: Stempel waktu zaman dalam milidetik.

    • DPU_HOUR: Jumlah unit pemrosesan data (DPU) jam yang digunakan untuk crawl.

  • FilterOperator— UTF -8 string (nilai valid: GT | GE | LT | LE EQ |NE).

    Komparator didefinisikan yang beroperasi pada nilai. Operator yang tersedia adalah:

    • GT: Lebih besar dari.

    • GE: Lebih besar dari atau sama dengan.

    • LT: Kurang dari.

    • LE: Kurang dari atau sama dengan.

    • EQ: Sama dengan.

    • NE: Tidak sama dengan.

  • FieldValue— UTF -8 string.

    Nilai yang diberikan untuk perbandingan pada bidang crawl.

SchemaChangePolicy struktur

Kebijakan yang menentukan perilaku pembaruan dan penghapusan untuk perayap.

Bidang
  • UpdateBehavior— UTF -8 string (nilai valid: LOG |UPDATE_IN_DATABASE).

    Perilaku pembaruan ketika perayap menemukan skema yang berubah.

  • DeleteBehavior— UTF -8 string (nilai valid: LOG | DELETE_FROM_DATABASE |DEPRECATE_IN_DATABASE).

    Perilaku penghapusan saat perayap menemukan objek yang dihapus.

LastCrawlInfo struktur

Informasi status dan kesalahan tentang perayapan terbaru.

Bidang
  • Status— UTF -8 string (nilai valid: SUCCEEDED | CANCELLED |FAILED).

    Status perayapan terakhir.

  • ErrorMessage — String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.

    Jika terjadi kesalahan, informasi kesalahan tentang perayapan terakhir.

  • LogGroup- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log group string pattern

    Grup log untuk perayapan terakhir.

  • LogStream- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log-stream string pattern

    Pengaliran log untuk perayapan terakhir.

  • MessagePrefix- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string pattern

    Prefiks untuk pesan tentang perayapan ini.

  • StartTime — Stempel waktu.

    Waktu saat perayapan dimulai.

RecrawlPolicy struktur

Saat melakukan perayapan pada sumber data Amazon S3 setelah perayapan pertama selesai, tentukan apakah akan melakukan perayapan pada seluruh set data lagi atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan. Untuk informasi selengkapnya, lihat Perayapan Tambahan AWS Glue dalam panduan developer.

Bidang
  • RecrawlBehavior— UTF -8 string (nilai valid: CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY |CRAWL_EVENT_MODE).

    Menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.

    Sebuah nilai CRAWL_EVERYTHING menentukan untuk melakukan perayapan pada seluruh set data lagi.

    Sebuah nilai CRAWL_NEW_FOLDERS_ONLY menentukan untuk hanya melakukan perayapan pada folder yang ditambahkan sejak menjalankan crawler terakhir kali dijalankan.

    Nilai CRAWL_EVENT_MODE menentukan crawling hanya perubahan yang diidentifikasi oleh peristiwa Amazon S3.

LineageConfiguration struktur

Menentukan pengaturan konfigurasi garis keturunan data untuk crawler tersebut.

Bidang
  • CrawlerLineageSettings— UTF -8 string (nilai valid: ENABLE |DISABLE).

    Menentukan apakah garis keturunan data diaktifkan untuk crawler. Nilai yang valid adalah:

    • ENABLE: mengaktifkan garis keturunan data untuk crawler

    • DISABLE: menonaktifkan garis keturunan data untuk crawler

LakeFormationConfiguration struktur

Menentukan pengaturan AWS Lake Formation konfigurasi untuk crawler.

Bidang
  • UseLakeFormationCredentials – Boolean.

    Menentukan apakah akan menggunakan AWS Lake Formation kredensyal untuk crawler bukan kredensyal peran. IAM

  • AccountId- UTF -8 string, panjangnya tidak lebih dari 12 byte.

    Diperlukan untuk crawl lintas akun. Untuk crawl akun yang sama dengan data target, ini dapat dibiarkan sebagai null.

Operasi

CreateCrawler tindakan (Python: create_crawler)

Menciptakan sebuah crawler baru dengan target tertentu, peran, konfigurasi, dan jadwal opsional. Setidaknya satu target perayapan harus ditentukan, dalam bidang s3Targets, bidang jdbcTargets, atau bidang DynamoDBTargets.

Permintaan
  • Name- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama crawler baru.

  • Role- Diperlukan: UTF -8 string.

    IAMPeran atau Amazon Resource Name (ARN) dari IAM peran yang digunakan oleh crawler baru untuk mengakses sumber daya pelanggan.

  • DatabaseName— UTF -8 string.

    AWS Glue Database tempat hasil ditulis, seperti:arn:aws:daylight:us-east-1::database/sometable/*.

  • Description — String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.

    Deskripsi crawler baru.

  • TargetsWajib: Sebuah objek CrawlerTargets.

    Sebuah daftar sekumpulan target yang akan dilakukan perayapan padanya.

  • Schedule— UTF -8 string.

    Sebuah ekspresi cron yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Misalnya, untuk menjalankan sesuatu setiap hari pada pukul 12:15UTC, Anda akan menentukan:cron(15 12 * * ? *).

  • Classifiers— Sebuah array dari UTF -8 string.

    Daftar pengklasifikasi kustom yang didaftarkan oleh pengguna. Secara default, semua pengklasifikasi bawaan disertakan dalam sebuah perayapan, tetapi pengklasifikasi kustom ini selalu menimpa pengklasifikasi default untuk klasifikasi tertentu.

  • TablePrefix- UTF -8 string, panjangnya tidak lebih dari 128 byte.

    Prefiks tabel yang digunakan untuk tabel katalog yang dibuat.

  • SchemaChangePolicy — Sebuah objek SchemaChangePolicy.

    Kebijakan untuk perilaku pembaruan dan penghapusan crawler.

  • RecrawlPolicy — Sebuah objek RecrawlPolicy.

    Sebuah kebijakan yang menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.

  • LineageConfiguration — Sebuah objek LineageConfiguration.

    Menentukan pengaturan konfigurasi garis keturunan data untuk crawler tersebut.

  • LakeFormationConfiguration — Sebuah objek LakeFormationConfiguration.

    Menentukan pengaturan AWS Lake Formation konfigurasi untuk crawler.

  • Configuration— UTF -8 string.

    Informasi konfigurasi perayap. JSONString berversi ini memungkinkan pengguna untuk menentukan aspek perilaku crawler. Untuk informasi selengkapnya, lihat Menyetel opsi konfigurasi crawler.

  • CrawlerSecurityConfiguration- UTF -8 string, panjangnya tidak lebih dari 128 byte.

    Nama struktur SecurityConfiguration yang akan digunakan oleh crawler ini.

  • Tags — Sebuah rangkaian peta pasangan nilai kunci, tidak lebih dari 50 pasang.

    Setiap kunci adalah string UTF -8, panjangnya tidak kurang dari 1 atau lebih dari 128 byte.

    Setiap nilai adalah string UTF -8, panjangnya tidak lebih dari 256 byte.

    Tag untuk digunakan dengan permintaan crawler ini. Anda dapat menggunakan tag untuk membatasi akses ke crawler. Untuk informasi selengkapnya tentang AWS tag AWS Glue, lihat Tag AWS Glue di panduan pengembang.

Respons
  • Tidak ada parameter Respons.

Kesalahan
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

DeleteCrawler tindakan (Python: delete_crawler)

Menghapus crawler tertentu dari AWS Glue Data Catalog, kecuali status crawler. RUNNING

Permintaan
  • Name- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama crawler yang akan dihapus.

Respons
  • Tidak ada parameter Respons.

Kesalahan
  • EntityNotFoundException

  • CrawlerRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException

GetCrawler tindakan (Python: get_crawler)

Mengambil metadata untuk crawler yang ditentukan.

Permintaan
  • Name- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama crawler yang untuknya metadata diambil.

Respons
  • Crawler — Sebuah objek Crawler.

    Metadata untuk crawler yang ditentukan.

Kesalahan
  • EntityNotFoundException

  • OperationTimeoutException

GetCrawlers tindakan (Python: get_crawlers)

Mengambil metadata untuk semua crawler yang didefinisikan dalam akun pelanggan.

Permintaan
  • MaxResults — Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.

    Jumlah crawler yang akan dikembalikan pada setiap panggilan.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan, jika ini adalah permintaan kelanjutan.

Respons
  • Crawlers – Susunan objek Crawler.

    Daftar metadata crawler.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan, jika daftar yang dikembalikan belum mencapai akhir yang didefinisikan dalam akun pelanggan ini.

Kesalahan
  • OperationTimeoutException

GetCrawlerMetrics tindakan (Python: get_crawler_metrics)

Mengambil metrik tentang crawler yang ditentukan.

Permintaan
  • CrawlerNameList— Sebuah array UTF -8 string, tidak lebih dari 100 string.

    Daftar nama crawler yang akan diambil metriknya.

  • MaxResults — Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.

    Ukuran maksimum daftar yang akan dikembalikan.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan, jika ini adalah panggilan kelanjutan.

Respons
  • CrawlerMetricsList – Susunan objek CrawlerMetrics.

    Daftar metrik untuk crawler yang ditentukan.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan, jika daftar yang dikembalikan tidak berisi metrik terakhir yang tersedia.

Kesalahan
  • OperationTimeoutException

UpdateCrawler tindakan (Python: update_crawler)

Memperbarui sebuah crawler. Jika sebuah crawler sedang berjalan, Anda harus menghentikannya menggunakan StopCrawler sebelum memperbaruinya.

Permintaan
  • Name- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama crawler baru.

  • Role— UTF -8 string.

    IAMPeran atau Amazon Resource Name (ARN) dari IAM peran yang digunakan oleh crawler baru untuk mengakses sumber daya pelanggan.

  • DatabaseName— UTF -8 string.

    AWS Glue Database tempat hasil disimpan, seperti:arn:aws:daylight:us-east-1::database/sometable/*.

  • Description- UTF -8 string, panjangnya tidak lebih dari 2048 byte, cocok dengan. URI address multi-line string pattern

    Deskripsi crawler baru.

  • Targets — Sebuah objek CrawlerTargets.

    Daftar target yang akan di-crawl.

  • Schedule— UTF -8 string.

    Sebuah ekspresi cron yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Misalnya, untuk menjalankan sesuatu setiap hari pada pukul 12:15UTC, Anda akan menentukan:cron(15 12 * * ? *).

  • Classifiers— Sebuah array dari UTF -8 string.

    Daftar pengklasifikasi kustom yang didaftarkan oleh pengguna. Secara default, semua pengklasifikasi bawaan disertakan dalam sebuah perayapan, tetapi pengklasifikasi kustom ini selalu menimpa pengklasifikasi default untuk klasifikasi tertentu.

  • TablePrefix- UTF -8 string, panjangnya tidak lebih dari 128 byte.

    Prefiks tabel yang digunakan untuk tabel katalog yang dibuat.

  • SchemaChangePolicy — Sebuah objek SchemaChangePolicy.

    Kebijakan untuk perilaku pembaruan dan penghapusan crawler.

  • RecrawlPolicy — Sebuah objek RecrawlPolicy.

    Sebuah kebijakan yang menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.

  • LineageConfiguration — Sebuah objek LineageConfiguration.

    Menentukan pengaturan konfigurasi garis keturunan data untuk crawler tersebut.

  • LakeFormationConfiguration — Sebuah objek LakeFormationConfiguration.

    Menentukan pengaturan AWS Lake Formation konfigurasi untuk crawler.

  • Configuration— UTF -8 string.

    Informasi konfigurasi perayap. JSONString berversi ini memungkinkan pengguna untuk menentukan aspek perilaku crawler. Untuk informasi selengkapnya, lihat Menyetel opsi konfigurasi crawler.

  • CrawlerSecurityConfiguration- UTF -8 string, panjangnya tidak lebih dari 128 byte.

    Nama struktur SecurityConfiguration yang akan digunakan oleh perayap ini.

Respons
  • Tidak ada parameter Respons.

Kesalahan
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StartCrawler tindakan (Python: start_crawler)

Memmulai sebuah perayapan menggunakan crawler yang ditentukan, terlepas dari apa yang dijadwalkan. Jika crawler sudah berjalan, mengembalikan file. CrawlerRunningException

Permintaan
  • Name- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama crawler yang akan dimulai.

Respons
  • Tidak ada parameter Respons.

Kesalahan
  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StopCrawler tindakan (Python: stop_crawler)

Jika crawler yang ditentukan sedang berjalan, berhenti melakukan perayapan.

Permintaan
  • Name- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama crawler yang akan dihentikan.

Respons
  • Tidak ada parameter Respons.

Kesalahan
  • EntityNotFoundException

  • CrawlerNotRunningException

  • CrawlerStoppingException

  • OperationTimeoutException

BatchGetCrawlers tindakan (Python: batch_get_crawlers)

Mengembalikan daftar metadata sumber daya untuk daftar yang nama crawler yang ditentukan. Setelah memanggil operasi ListCrawlers, Anda dapat memanggil operasi ini untuk mengakses data yang Anda telah diberikan izinnya. Operasi ini mendukung semua IAM izin, termasuk kondisi izin yang menggunakan tag.

Permintaan
  • CrawlerNamesDiperlukan: Sebuah array UTF -8 string, tidak lebih dari 100 string.

    Daftar nama crawler, mungkin nama yang dikembalikan oleh operasi ListCrawlers.

Respons
  • Crawlers – Susunan objek Crawler.

    Daftar definisi crawler.

  • CrawlersNotFound— Sebuah array UTF -8 string, tidak lebih dari 100 string.

    Daftar nama crawler yang tidak ditemukan.

Kesalahan
  • InvalidInputException

  • OperationTimeoutException

ListCrawlers tindakan (Python: list_crawlers)

Mengambil nama semua sumber daya crawler di AWS akun ini, atau sumber daya dengan tag yang ditentukan. Operasi ini memungkinkan Anda melihat sumber daya yang tersedia di akun Anda, dan nama-namanya.

Operasi ini mengambil kolom Tags opsional, yang dapat Anda gunakan sebagai filter pada respon sehingga tag sumber daya dapat diambil sebagai sebuah grup. Jika Anda memilih untuk menggunakan pem-filter-an tag, maka hanya sumber daya dengan tag saja yang diambil.

Permintaan
  • MaxResults — Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.

    Ukuran maksimum daftar yang akan dikembalikan.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan, jika ini adalah permintaan kelanjutan.

  • Tags — Sebuah rangkaian peta pasangan nilai kunci, tidak lebih dari 50 pasang.

    Setiap kunci adalah string UTF -8, panjangnya tidak kurang dari 1 atau lebih dari 128 byte.

    Setiap nilai adalah string UTF -8, panjangnya tidak lebih dari 256 byte.

    Menentukan untuk mengembalikan hanya sumber daya ditandai saja.

Respons
  • CrawlerNames— Sebuah array UTF -8 string, tidak lebih dari 100 string.

    Nama dari semua crawler dalam akun, atau crawler dengan tag yang ditentukan.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan, jika daftar yang dikembalikan tidak berisi metrik terakhir yang tersedia.

Kesalahan
  • OperationTimeoutException

ListCrawls tindakan (Python: list_crawls)

Mengembalikan semua crawl dari crawler tertentu. Hanya mengembalikan crawl yang telah terjadi sejak tanggal peluncuran fitur riwayat perayap, dan hanya mempertahankan perayapan hingga 12 bulan. Perayapan yang lebih tua tidak akan dikembalikan.

Anda dapat menggunakan ini API untuk:

  • Ambil semua crawl dari crawler tertentu.

  • Ambil semua crawl crawler tertentu dalam hitungan terbatas.

  • Ambil semua crawl crawler tertentu dalam rentang waktu tertentu.

  • Ambil semua crawl crawler tertentu dengan status tertentu, ID crawl, atau nilai jam. DPU

Permintaan
  • CrawlerName- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string pattern

    Nama crawler yang menjalankan Anda ingin mengambil.

  • MaxResults — Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.

    Jumlah hasil maksimum yang akan dikembalikan. Defaultnya adalah 20, dan maksimum adalah 100.

  • Filters – Susunan objek CrawlsFilter.

    Memfilter crawl berdasarkan kriteria yang Anda tentukan dalam daftar CrawlsFilter objek.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan, jika ini adalah panggilan kelanjutan.

Respons
  • Crawls – Susunan objek CrawlerHistory.

    Daftar CrawlerHistory objek yang mewakili proses crawl yang memenuhi kriteria Anda.

  • NextToken— UTF -8 string.

    Sebuah token kelanjutan untuk pemberian nomor halaman untuk daftar token yang ditampilkan, dikembalikan jika segmen saat ini dari daftar tersebut bukan yang terakhir.

Kesalahan
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException