Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Perayap API
Crawler API menjelaskan tipe data AWS Glue crawler, bersama dengan API untuk membuat, menghapus, memperbarui, dan mencantumkan crawler.
Jenis data
Struktur perayap
Menentukan sebuah program crawler yang meneliti sumber data dan menggunakan pengklasifikasi untuk mencoba menentukan skemanya. Jika berhasil, crawler mencatat metadata yang terkait sumber data di AWS Glue Data Catalog.
Bidang
-
Name
- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string patternNama perayap.
-
Role
— UTF -8 string.Nama Sumber Daya Amazon (ARN) IAM peran yang digunakan untuk mengakses sumber daya pelanggan, seperti data Amazon Simple Storage Service (Amazon S3).
-
Targets
— Sebuah objek CrawlerTargets.Sebuah sekumpulan target yang akan dilakukan perayapan padanya.
-
DatabaseName
— UTF -8 string.Nama basis data tempat output crawler disimpan.
-
Description
— String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.Deskripsi crawler.
-
Classifiers
— Sebuah array dari UTF -8 string.Daftar string UTF -8 yang menentukan pengklasifikasi kustom yang terkait dengan crawler.
-
RecrawlPolicy
— Sebuah objek RecrawlPolicy.Sebuah kebijakan yang menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.
-
SchemaChangePolicy
— Sebuah objek SchemaChangePolicy.Kebijakan yang menentukan perilaku pembaruan dan penghapusan untuk crawler.
-
LineageConfiguration
— Sebuah objek LineageConfiguration.Sebuah konfigurasi yang menentukan apakah garis keturunan data diaktifkan untuk crawler.
-
State
— UTF -8 string (nilai valid:READY
|RUNNING
|STOPPING
).Menunjukkan apakah crawler sedang berjalan, atau apakah eksekusi-nya ditunda.
-
TablePrefix
- UTF -8 string, panjangnya tidak lebih dari 128 byte.Prefiks ditambahkan ke nama tabel yang dibuat.
-
Schedule
— Sebuah objek Jadwal.Untuk crawler terjadwal, jadwal pada saat crawler berjalan.
-
CrawlElapsedTime
— Nomor (panjang).Jika crawler berjalan, berisi total waktu yang berlalu sejak perayapan terakhir dimulai.
-
CreationTime
— Stempel waktu.Waktu saat crawler diciptakan.
-
LastUpdated
— Stempel waktu.Waktu saat crawler terakhir diperbarui.
-
LastCrawl
— Sebuah objek LastCrawlInfo.Status perayapan terakhir, dan kemungkinan kesalahan informasi jika terjadi kesalahan.
-
Version
— Nomor (panjang).Versi crawler.
-
Configuration
— UTF -8 string.Informasi konfigurasi perayap. JSONString berversi ini memungkinkan pengguna untuk menentukan aspek perilaku crawler. Untuk informasi selengkapnya, lihat Menyetel opsi konfigurasi crawler.
-
CrawlerSecurityConfiguration
- UTF -8 string, panjangnya tidak lebih dari 128 byte.Nama struktur
SecurityConfiguration
yang akan digunakan oleh perayap ini. -
LakeFormationConfiguration
— Sebuah objek LakeFormationConfiguration.Menentukan apakah crawler harus menggunakan AWS Lake Formation kredensyal untuk crawler, bukan kredensyal peran. IAM
Struktur jadwal
Sebuah objek penjadwalan menggunakan pernyataan cron
untuk menjadwalkan sebuah peristiwa.
Bidang
-
ScheduleExpression
— UTF -8 string.Sebuah ekspresi
cron
yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Misalnya, untuk menjalankan sesuatu setiap hari pada pukul 12:15UTC, Anda akan menentukan:cron(15 12 * * ? *)
. -
State
— UTF -8 string (nilai valid:SCHEDULED
|NOT_SCHEDULED
|TRANSITIONING
).Status jadwal.
CrawlerTargets struktur
Menentukan data yang disimpan ke perayapan.
Bidang
-
S3Targets
– Susunan objek S3Target.Menentukan target Amazon Simple Storage Service (Amazon S3).
-
JdbcTargets
– Susunan objek JdbcTarget.Menentukan target JDBC.
-
MongoDBTargets
– Susunan objek M ongoDBTarget.Menentukan target Amazon DocumentDB atau MongoDB.
-
DynamoDBTargets
– Susunan objek D ynamoDBTarget.Menentukan target Amazon DynamoDB.
-
CatalogTargets
– Susunan objek CatalogTarget.Menentukan AWS Glue Data Catalog target.
-
DeltaTargets
– Susunan objek DeltaTarget.Menentukan target penyimpanan data Delta.
-
IcebergTargets
– Susunan objek IcebergTarget.Menentukan target penyimpanan data Apache Iceberg.
-
HudiTargets
– Susunan objek HudiTarget.Menentukan target penyimpanan data Apache Hudi.
Struktur S3Target
Menentukan penyimpanan data dalam Amazon Simple Storage Service (Amazon S3).
Bidang
-
Path
— UTF -8 string.Jalur ke target Amazon S3.
-
Exclusions
— Sebuah array dari UTF -8 string.Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.
-
ConnectionName
— UTF -8 string.Nama koneksi yang memungkinkan pekerjaan atau crawler untuk mengakses data di Amazon S3 dalam lingkungan Amazon Virtual Private Cloud (AmazonVPC).
-
SampleSize
— Nomor (bilangan bulat).Menetapkan jumlah file di setiap folder daun yang akan di-crawl saat melakukan perayapan pada file sampel dalam set data. Jika tidak diatur, maka semua file di-crawl. Nilai yang valid adalah bilangan bulat antara 1 dan 249.
-
EventQueueArn
— UTF -8 string.Amazon yang valid SQSARN. Misalnya,
arn:aws:sqs:region:account:sqs
. -
DlqEventQueueArn
— UTF -8 string.Surat mati SQS ARN Amazon yang valid. Misalnya,
arn:aws:sqs:region:account:deadLetterQueue
.
Struktur S3 DeltaCatalogTarget
Menentukan target yang menulis ke sumber data Delta Lake di Katalog AWS Glue Data.
Bidang
-
Name
- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #45Nama target data.
-
Inputs
— Wajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.Node yang merupakan input ke target data.
-
PartitionKeys
— Sebuah array dari UTF -8 string.Menentukan partisi asli menggunakan urutan kunci.
-
Table
- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #43Nama tabel dalam database untuk menulis ke.
-
Database
- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #43Nama database untuk menulis.
-
AdditionalOptions
– Susunan peta pasangan nilai kunci.Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #43
Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #43
Menentukan pilihan koneksi tambahan untuk konektor.
-
SchemaChangePolicy
— Sebuah objek CatalogSchemaChangePolicy.Kebijakan yang menentukan perilaku update untuk crawler.
Struktur S3 DeltaDirectTarget
Menentukan target yang menulis ke sumber data Delta Lake di. Amazon S3
Bidang
-
Name
- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #45Nama target data.
-
Inputs
— Wajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.Node yang merupakan input ke target data.
-
PartitionKeys
— Sebuah array dari UTF -8 string.Menentukan partisi asli menggunakan urutan kunci.
-
Path
- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #43Jalur Amazon S3 dari sumber data Delta Lake Anda untuk menulis.
-
Compression
- Diperlukan: UTF -8 string (nilai valid:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah
"gzip"
dan"bzip"
). -
Format
— Diperlukan: UTF -8 string (nilai valid:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
hudi="HUDI"
|delta="DELTA"
).Menentukan format output data untuk target.
-
AdditionalOptions
– Susunan peta pasangan nilai kunci.Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #43
Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #43
Menentukan pilihan koneksi tambahan untuk konektor.
-
SchemaChangePolicy
— Sebuah objek DirectSchemaChangePolicy.Kebijakan yang menentukan perilaku update untuk crawler.
JdbcTarget struktur
Menentukan penyimpanan JDBC data untuk crawl.
Bidang
-
ConnectionName
— UTF -8 string.Nama koneksi yang akan digunakan untuk terhubung ke JDBC target.
-
Path
— UTF -8 string.Jalan JDBC target.
-
Exclusions
— Sebuah array dari UTF -8 string.Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.
-
EnableAdditionalMetadata
— Sebuah array dari UTF -8 string.Tentukan nilai
RAWTYPES
atauCOMMENTS
untuk mengaktifkan metadata tambahan dalam respons tabel.RAWTYPES
menyediakan tipe data tingkat asli.COMMENTS
memberikan komentar yang terkait dengan kolom atau tabel dalam database.Jika Anda tidak memerlukan metadata tambahan, biarkan bidang kosong.
ongoDBTarget Struktur M
Menentukan penyimpanan data Amazon DocumentDB atau MongoDB yang akan di-crawl.
Bidang
-
ConnectionName
— UTF -8 string.Nama koneksi yang akan digunakan untuk menghubungkan ke target Amazon DocumentDB atau MongoDB.
-
Path
— UTF -8 string.Path target Amazon DocumentDB atau MongoDB target (basis data/koleksi).
-
ScanAll
– Boolean.Menunjukkan apakah akan memindai semua catatan, atau mengambil sampel baris dari tabel. Memindai semua catatan dapat memakan waktu lama ketika tabel tersebut bukan merupakan tabel throughput tinggi.
Sebuah nilai
true
berarti memindai semua catatan, sementara nilaifalse
berarti mengambil sampel catatan. Jika tidak ada nilai yang ditentukan, nilai defaultnya menjaditrue
.
ynamoDBTarget Struktur D
Menentukan tabel Amazon DynamoDB untuk bergerak.
Bidang
-
Path
— UTF -8 string.Nama dari tabel DynamoDB untuk bergerak.
-
scanAll
– Boolean.Menunjukkan apakah akan memindai semua catatan, atau mengambil sampel baris dari tabel. Memindai semua catatan dapat memakan waktu lama ketika tabel tersebut bukan merupakan tabel throughput tinggi.
Sebuah nilai
true
berarti memindai semua catatan, sementara nilaifalse
berarti mengambil sampel catatan. Jika tidak ada nilai yang ditentukan, nilai defaultnya menjaditrue
. -
scanRate
— Nomor (ganda).Persentase unit kapasitas baca yang dikonfigurasi untuk digunakan oleh AWS Glue crawler. Unit kapasitas baca adalah istilah yang didefinisikan oleh DynamoDB, dan merupakan nilai numerik yang bertindak sebagai tingkat pembatar untuk jumlah baca yang dapat dilakukan pada tabel tersebut per detik.
Nilai-nilai yang valid adalah nol atau nilai antara 0,1 sampai 1,5. Nilai nol digunakan ketika pengguna tidak memberikan nilai, dan default-nya menjadi 0,5 Unit Kapasitas Baca yang dikonfigurasi (untuk tabel yang disediakan), atau maksimal 0,25 Unit Kapasitas Baca yang dikonfigurasi (untuk tabel yang menggunakan mode sesuai permintaan).
DeltaTarget struktur
Menentukan penyimpanan data Delta untuk merayapi satu atau lebih tabel Delta.
Bidang
-
DeltaTables
— Sebuah array dari UTF -8 string.Daftar jalur Amazon S3 ke tabel Delta.
-
ConnectionName
— UTF -8 string.Nama koneksi yang akan digunakan untuk terhubung ke target tabel Delta.
-
WriteManifest
– Boolean.Menentukan apakah akan menulis file manifes ke jalur tabel Delta.
-
CreateNativeDeltaTable
– Boolean.Menentukan apakah crawler akan membuat tabel asli, untuk memungkinkan integrasi dengan mesin kueri yang mendukung kueri log transaksi Delta secara langsung.
IcebergTarget struktur
Menentukan sumber data Apache Iceberg di mana tabel Iceberg disimpan dalam. Amazon S3
Bidang
-
Paths
— Sebuah array dari UTF -8 string.Satu atau beberapa Amazon S3 jalur yang berisi folder metadata Iceberg sebagai.
s3://bucket/prefix
-
ConnectionName
— UTF -8 string.Nama koneksi yang digunakan untuk terhubung ke target Gunung Es.
-
Exclusions
— Sebuah array dari UTF -8 string.Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.
-
MaximumTraversalDepth
— Nomor (bilangan bulat).Kedalaman maksimum Amazon S3 jalur yang dapat dilalui crawler untuk menemukan folder metadata Iceberg di jalur Anda. Amazon S3 Digunakan untuk membatasi waktu berjalan crawler.
HudiTarget struktur
Menentukan sumber data Apache Hudi.
Bidang
-
Paths
— Sebuah array dari UTF -8 string.Sebuah array string Amazon S3 lokasi untuk Hudi, masing-masing menunjukkan folder root dengan mana file metadata untuk tabel Hudi berada. Folder Hudi mungkin terletak di folder anak dari folder root.
Crawler akan memindai semua folder di bawah jalur untuk folder Hudi.
-
ConnectionName
— UTF -8 string.Nama koneksi yang digunakan untuk terhubung ke target Hudi. Jika file Hudi Anda disimpan dalam bucket yang memerlukan VPC otorisasi, Anda dapat mengatur properti koneksi mereka di sini.
-
Exclusions
— Sebuah array dari UTF -8 string.Daftar pola glob yang digunakan untuk mengecualikan dari perayapan. Untuk informasi selengkapnya, lihat: Tabel Katalog dengan Crawler.
-
MaximumTraversalDepth
— Nomor (bilangan bulat).Kedalaman maksimum Amazon S3 jalur yang dapat dilalui crawler untuk menemukan folder metadata Hudi di jalur Anda. Amazon S3 Digunakan untuk membatasi waktu berjalan crawler.
CatalogTarget struktur
Menentukan AWS Glue Data Catalog target.
Bidang
-
DatabaseName
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama database yang akan disinkronkan.
-
Tables
— Diperlukan: Sebuah array UTF -8 string, setidaknya 1 string.Daftar tabel yang akan disinkronkan.
-
ConnectionName
— UTF -8 string.Nama sambungan untuk tabel Katalog Data yang didukung Amazon S3 menjadi target crawl saat menggunakan jenis
Catalog
koneksi yang dipasangkan dengan tipe Sambungan.NETWORK
-
EventQueueArn
— UTF -8 string.Amazon yang valid SQSARN. Misalnya,
arn:aws:sqs:region:account:sqs
. -
DlqEventQueueArn
— UTF -8 string.Surat mati SQS ARN Amazon yang valid. Misalnya,
arn:aws:sqs:region:account:deadLetterQueue
.
CrawlerMetrics struktur
Metrik untuk sebuah crawler yang ditentukan.
Bidang
-
CrawlerName
- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string patternNama crawler.
-
TimeLeftSeconds
— Nomor (ganda), tidak lebih dari Tidak Ada.Perkiraan waktu tersisa untuk menyelesaikan perayapan yang berjalan.
-
StillEstimating
– Boolean.BETUL jika crawler masih memperkirakan berapa lama waktu yang dibutuhkan untuk menyelesaikan eksekusi ini.
-
LastRuntimeSeconds
— Nomor (ganda), tidak lebih dari Tidak Ada.Durasi eksekusi terbaru oleh crawler, dalam hitungan detik.
-
MedianRuntimeSeconds
— Nomor (ganda), tidak lebih dari Tidak Ada.Durasi median dari eksekusi crawler ini, dalam hitungan detik.
-
TablesCreated
— Nomor (bilangan bulat), tidak lebih dari Tidak Ada.Jumlah tabel yang dibuat oleh crawler ini.
-
TablesUpdated
— Nomor (bilangan bulat), tidak lebih dari Tidak Ada.Jumlah tabel yang diperbarui oleh crawler ini.
-
TablesDeleted
— Nomor (bilangan bulat), tidak lebih dari Tidak Ada.Jumlah tabel yang dihapus oleh crawler ini.
CrawlerHistory struktur
Berisi informasi untuk menjalankan crawler.
Bidang
-
CrawlId
— UTF -8 string.UUIDPengenal untuk setiap crawl.
-
State
— UTF -8 string (nilai valid:RUNNING
| |COMPLETED
FAILED
|STOPPED
).Keadaan merangkak.
-
StartTime
— Stempel waktu.Tanggal dan waktu saat perayapan dimulai.
-
EndTime
— Stempel waktu.Tanggal dan waktu di mana perayapan berakhir.
-
Summary
- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string patternRingkasan run untuk crawl tertentu diJSON. Berisi tabel katalog dan partisi yang ditambahkan, diperbarui, atau dihapus.
-
ErrorMessage
— String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.Jika terjadi kesalahan, pesan kesalahan terkait dengan crawl.
-
LogGroup
- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log group string patternGrup log yang dikaitkan dengan perayapan.
-
LogStream
- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log-stream string patternPengaliran log yang dikaitkan dengan perayapan.
-
MessagePrefix
- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string patternAwalan untuk CloudWatch pesan tentang crawl ini.
-
DPUHour
— Nomor (ganda), tidak lebih dari Tidak Ada.Jumlah unit pemrosesan data (DPU) yang digunakan dalam jam untuk crawl.
CrawlsFilter struktur
Daftar bidang, pembanding, dan nilai yang dapat Anda gunakan untuk memfilter crawler berjalan untuk crawler tertentu.
Bidang
-
FieldName
— UTF -8 string (nilai valid:CRAWL_ID
| |STATE
|START_TIME
END_TIME
|DPU_HOUR
).Kunci yang digunakan untuk memfilter crawler berjalan untuk crawler tertentu. Nilai yang valid untuk masing-masing nama bidang adalah:
-
CRAWL_ID
: Sebuah string yang mewakili UUID identifier untuk crawl. -
STATE
: Sebuah string yang mewakili status crawl. -
START_TIME
danEND_TIME
: Stempel waktu zaman dalam milidetik. -
DPU_HOUR
: Jumlah unit pemrosesan data (DPU) jam yang digunakan untuk crawl.
-
-
FilterOperator
— UTF -8 string (nilai valid:GT
|GE
|LT
|LE
EQ
|NE
).Komparator didefinisikan yang beroperasi pada nilai. Operator yang tersedia adalah:
-
GT
: Lebih besar dari. -
GE
: Lebih besar dari atau sama dengan. -
LT
: Kurang dari. -
LE
: Kurang dari atau sama dengan. -
EQ
: Sama dengan. -
NE
: Tidak sama dengan.
-
-
FieldValue
— UTF -8 string.Nilai yang diberikan untuk perbandingan pada bidang crawl.
SchemaChangePolicy struktur
Kebijakan yang menentukan perilaku pembaruan dan penghapusan untuk perayap.
Bidang
-
UpdateBehavior
— UTF -8 string (nilai valid:LOG
|UPDATE_IN_DATABASE
).Perilaku pembaruan ketika perayap menemukan skema yang berubah.
-
DeleteBehavior
— UTF -8 string (nilai valid:LOG
|DELETE_FROM_DATABASE
|DEPRECATE_IN_DATABASE
).Perilaku penghapusan saat perayap menemukan objek yang dihapus.
LastCrawlInfo struktur
Informasi status dan kesalahan tentang perayapan terbaru.
Bidang
-
Status
— UTF -8 string (nilai valid:SUCCEEDED
|CANCELLED
|FAILED
).Status perayapan terakhir.
-
ErrorMessage
— String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.Jika terjadi kesalahan, informasi kesalahan tentang perayapan terakhir.
-
LogGroup
- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log group string patternGrup log untuk perayapan terakhir.
-
LogStream
- UTF -8 string, tidak kurang dari 1 atau lebih dari 512 byte panjang, cocok dengan. Log-stream string patternPengaliran log untuk perayapan terakhir.
-
MessagePrefix
- UTF -8 string, tidak kurang dari 1 atau lebih dari 255 byte panjang, cocok dengan. Single-line string patternPrefiks untuk pesan tentang perayapan ini.
-
StartTime
— Stempel waktu.Waktu saat perayapan dimulai.
RecrawlPolicy struktur
Saat melakukan perayapan pada sumber data Amazon S3 setelah perayapan pertama selesai, tentukan apakah akan melakukan perayapan pada seluruh set data lagi atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan. Untuk informasi selengkapnya, lihat Perayapan Tambahan AWS Glue dalam panduan developer.
Bidang
-
RecrawlBehavior
— UTF -8 string (nilai valid:CRAWL_EVERYTHING
|CRAWL_NEW_FOLDERS_ONLY
|CRAWL_EVENT_MODE
).Menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.
Sebuah nilai
CRAWL_EVERYTHING
menentukan untuk melakukan perayapan pada seluruh set data lagi.Sebuah nilai
CRAWL_NEW_FOLDERS_ONLY
menentukan untuk hanya melakukan perayapan pada folder yang ditambahkan sejak menjalankan crawler terakhir kali dijalankan.Nilai
CRAWL_EVENT_MODE
menentukan crawling hanya perubahan yang diidentifikasi oleh peristiwa Amazon S3.
LineageConfiguration struktur
Menentukan pengaturan konfigurasi garis keturunan data untuk crawler tersebut.
Bidang
-
CrawlerLineageSettings
— UTF -8 string (nilai valid:ENABLE
|DISABLE
).Menentukan apakah garis keturunan data diaktifkan untuk crawler. Nilai yang valid adalah:
-
ENABLE: mengaktifkan garis keturunan data untuk crawler
-
DISABLE: menonaktifkan garis keturunan data untuk crawler
-
LakeFormationConfiguration struktur
Menentukan pengaturan AWS Lake Formation konfigurasi untuk crawler.
Bidang
-
UseLakeFormationCredentials
– Boolean.Menentukan apakah akan menggunakan AWS Lake Formation kredensyal untuk crawler bukan kredensyal peran. IAM
-
AccountId
- UTF -8 string, panjangnya tidak lebih dari 12 byte.Diperlukan untuk crawl lintas akun. Untuk crawl akun yang sama dengan data target, ini dapat dibiarkan sebagai null.
Operasi
CreateCrawler tindakan (Python: create_crawler)
Menciptakan sebuah crawler baru dengan target tertentu, peran, konfigurasi, dan jadwal opsional. Setidaknya satu target perayapan harus ditentukan, dalam bidang s3Targets
, bidang jdbcTargets
, atau bidang DynamoDBTargets
.
Permintaan
-
Name
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama crawler baru.
-
Role
- Diperlukan: UTF -8 string.IAMPeran atau Amazon Resource Name (ARN) dari IAM peran yang digunakan oleh crawler baru untuk mengakses sumber daya pelanggan.
-
DatabaseName
— UTF -8 string.AWS Glue Database tempat hasil ditulis, seperti:
arn:aws:daylight:us-east-1::database/sometable/*
. -
Description
— String deskripsi, dengan panjang tidak lebih dari 2048 byte, yang cocok dengan URI address multi-line string pattern.Deskripsi crawler baru.
-
Targets
— Wajib: Sebuah objek CrawlerTargets.Sebuah daftar sekumpulan target yang akan dilakukan perayapan padanya.
-
Schedule
— UTF -8 string.Sebuah ekspresi
cron
yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Misalnya, untuk menjalankan sesuatu setiap hari pada pukul 12:15UTC, Anda akan menentukan:cron(15 12 * * ? *)
. -
Classifiers
— Sebuah array dari UTF -8 string.Daftar pengklasifikasi kustom yang didaftarkan oleh pengguna. Secara default, semua pengklasifikasi bawaan disertakan dalam sebuah perayapan, tetapi pengklasifikasi kustom ini selalu menimpa pengklasifikasi default untuk klasifikasi tertentu.
-
TablePrefix
- UTF -8 string, panjangnya tidak lebih dari 128 byte.Prefiks tabel yang digunakan untuk tabel katalog yang dibuat.
-
SchemaChangePolicy
— Sebuah objek SchemaChangePolicy.Kebijakan untuk perilaku pembaruan dan penghapusan crawler.
-
RecrawlPolicy
— Sebuah objek RecrawlPolicy.Sebuah kebijakan yang menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.
-
LineageConfiguration
— Sebuah objek LineageConfiguration.Menentukan pengaturan konfigurasi garis keturunan data untuk crawler tersebut.
-
LakeFormationConfiguration
— Sebuah objek LakeFormationConfiguration.Menentukan pengaturan AWS Lake Formation konfigurasi untuk crawler.
-
Configuration
— UTF -8 string.Informasi konfigurasi perayap. JSONString berversi ini memungkinkan pengguna untuk menentukan aspek perilaku crawler. Untuk informasi selengkapnya, lihat Menyetel opsi konfigurasi crawler.
-
CrawlerSecurityConfiguration
- UTF -8 string, panjangnya tidak lebih dari 128 byte.Nama struktur
SecurityConfiguration
yang akan digunakan oleh crawler ini. -
Tags
— Sebuah rangkaian peta pasangan nilai kunci, tidak lebih dari 50 pasang.Setiap kunci adalah string UTF -8, panjangnya tidak kurang dari 1 atau lebih dari 128 byte.
Setiap nilai adalah string UTF -8, panjangnya tidak lebih dari 256 byte.
Tag untuk digunakan dengan permintaan crawler ini. Anda dapat menggunakan tag untuk membatasi akses ke crawler. Untuk informasi selengkapnya tentang AWS tag AWS Glue, lihat Tag AWS Glue di panduan pengembang.
Respons
Tidak ada parameter Respons.
Kesalahan
InvalidInputException
AlreadyExistsException
OperationTimeoutException
ResourceNumberLimitExceededException
DeleteCrawler tindakan (Python: delete_crawler)
Menghapus crawler tertentu dari AWS Glue Data Catalog, kecuali status crawler. RUNNING
Permintaan
-
Name
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama crawler yang akan dihapus.
Respons
Tidak ada parameter Respons.
Kesalahan
EntityNotFoundException
CrawlerRunningException
SchedulerTransitioningException
OperationTimeoutException
GetCrawler tindakan (Python: get_crawler)
Mengambil metadata untuk crawler yang ditentukan.
Permintaan
-
Name
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama crawler yang untuknya metadata diambil.
Respons
-
Crawler
— Sebuah objek Crawler.Metadata untuk crawler yang ditentukan.
Kesalahan
EntityNotFoundException
OperationTimeoutException
GetCrawlers tindakan (Python: get_crawlers)
Mengambil metadata untuk semua crawler yang didefinisikan dalam akun pelanggan.
Permintaan
-
MaxResults
— Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.Jumlah crawler yang akan dikembalikan pada setiap panggilan.
-
NextToken
— UTF -8 string.Sebuah token kelanjutan, jika ini adalah permintaan kelanjutan.
Respons
-
Crawlers
– Susunan objek Crawler.Daftar metadata crawler.
-
NextToken
— UTF -8 string.Sebuah token kelanjutan, jika daftar yang dikembalikan belum mencapai akhir yang didefinisikan dalam akun pelanggan ini.
Kesalahan
OperationTimeoutException
GetCrawlerMetrics tindakan (Python: get_crawler_metrics)
Mengambil metrik tentang crawler yang ditentukan.
Permintaan
-
CrawlerNameList
— Sebuah array UTF -8 string, tidak lebih dari 100 string.Daftar nama crawler yang akan diambil metriknya.
-
MaxResults
— Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.Ukuran maksimum daftar yang akan dikembalikan.
-
NextToken
— UTF -8 string.Sebuah token kelanjutan, jika ini adalah panggilan kelanjutan.
Respons
-
CrawlerMetricsList
– Susunan objek CrawlerMetrics.Daftar metrik untuk crawler yang ditentukan.
-
NextToken
— UTF -8 string.Sebuah token kelanjutan, jika daftar yang dikembalikan tidak berisi metrik terakhir yang tersedia.
Kesalahan
OperationTimeoutException
UpdateCrawler tindakan (Python: update_crawler)
Memperbarui sebuah crawler. Jika sebuah crawler sedang berjalan, Anda harus menghentikannya menggunakan StopCrawler
sebelum memperbaruinya.
Permintaan
-
Name
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama crawler baru.
-
Role
— UTF -8 string.IAMPeran atau Amazon Resource Name (ARN) dari IAM peran yang digunakan oleh crawler baru untuk mengakses sumber daya pelanggan.
-
DatabaseName
— UTF -8 string.AWS Glue Database tempat hasil disimpan, seperti:
arn:aws:daylight:us-east-1::database/sometable/*
. -
Description
- UTF -8 string, panjangnya tidak lebih dari 2048 byte, cocok dengan. URI address multi-line string patternDeskripsi crawler baru.
-
Targets
— Sebuah objek CrawlerTargets.Daftar target yang akan di-crawl.
-
Schedule
— UTF -8 string.Sebuah ekspresi
cron
yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Misalnya, untuk menjalankan sesuatu setiap hari pada pukul 12:15UTC, Anda akan menentukan:cron(15 12 * * ? *)
. -
Classifiers
— Sebuah array dari UTF -8 string.Daftar pengklasifikasi kustom yang didaftarkan oleh pengguna. Secara default, semua pengklasifikasi bawaan disertakan dalam sebuah perayapan, tetapi pengklasifikasi kustom ini selalu menimpa pengklasifikasi default untuk klasifikasi tertentu.
-
TablePrefix
- UTF -8 string, panjangnya tidak lebih dari 128 byte.Prefiks tabel yang digunakan untuk tabel katalog yang dibuat.
-
SchemaChangePolicy
— Sebuah objek SchemaChangePolicy.Kebijakan untuk perilaku pembaruan dan penghapusan crawler.
-
RecrawlPolicy
— Sebuah objek RecrawlPolicy.Sebuah kebijakan yang menentukan apakah akan melakukan perayapan pada seluruh set data lagi, atau hanya pada folder yang ditambahkan sejak crawler terakhir kali dijalankan.
-
LineageConfiguration
— Sebuah objek LineageConfiguration.Menentukan pengaturan konfigurasi garis keturunan data untuk crawler tersebut.
-
LakeFormationConfiguration
— Sebuah objek LakeFormationConfiguration.Menentukan pengaturan AWS Lake Formation konfigurasi untuk crawler.
-
Configuration
— UTF -8 string.Informasi konfigurasi perayap. JSONString berversi ini memungkinkan pengguna untuk menentukan aspek perilaku crawler. Untuk informasi selengkapnya, lihat Menyetel opsi konfigurasi crawler.
-
CrawlerSecurityConfiguration
- UTF -8 string, panjangnya tidak lebih dari 128 byte.Nama struktur
SecurityConfiguration
yang akan digunakan oleh perayap ini.
Respons
Tidak ada parameter Respons.
Kesalahan
InvalidInputException
VersionMismatchException
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StartCrawler tindakan (Python: start_crawler)
Memmulai sebuah perayapan menggunakan crawler yang ditentukan, terlepas dari apa yang dijadwalkan. Jika crawler sudah berjalan, mengembalikan file. CrawlerRunningException
Permintaan
-
Name
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama crawler yang akan dimulai.
Respons
Tidak ada parameter Respons.
Kesalahan
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StopCrawler tindakan (Python: stop_crawler)
Jika crawler yang ditentukan sedang berjalan, berhenti melakukan perayapan.
Permintaan
-
Name
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama crawler yang akan dihentikan.
Respons
Tidak ada parameter Respons.
Kesalahan
EntityNotFoundException
CrawlerNotRunningException
CrawlerStoppingException
OperationTimeoutException
BatchGetCrawlers tindakan (Python: batch_get_crawlers)
Mengembalikan daftar metadata sumber daya untuk daftar yang nama crawler yang ditentukan. Setelah memanggil operasi ListCrawlers
, Anda dapat memanggil operasi ini untuk mengakses data yang Anda telah diberikan izinnya. Operasi ini mendukung semua IAM izin, termasuk kondisi izin yang menggunakan tag.
Permintaan
-
CrawlerNames
— Diperlukan: Sebuah array UTF -8 string, tidak lebih dari 100 string.Daftar nama crawler, mungkin nama yang dikembalikan oleh operasi
ListCrawlers
.
Respons
-
Crawlers
– Susunan objek Crawler.Daftar definisi crawler.
-
CrawlersNotFound
— Sebuah array UTF -8 string, tidak lebih dari 100 string.Daftar nama crawler yang tidak ditemukan.
Kesalahan
InvalidInputException
OperationTimeoutException
ListCrawlers tindakan (Python: list_crawlers)
Mengambil nama semua sumber daya crawler di AWS akun ini, atau sumber daya dengan tag yang ditentukan. Operasi ini memungkinkan Anda melihat sumber daya yang tersedia di akun Anda, dan nama-namanya.
Operasi ini mengambil kolom Tags
opsional, yang dapat Anda gunakan sebagai filter pada respon sehingga tag sumber daya dapat diambil sebagai sebuah grup. Jika Anda memilih untuk menggunakan pem-filter-an tag, maka hanya sumber daya dengan tag saja yang diambil.
Permintaan
-
MaxResults
— Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.Ukuran maksimum daftar yang akan dikembalikan.
-
NextToken
— UTF -8 string.Sebuah token kelanjutan, jika ini adalah permintaan kelanjutan.
-
Tags
— Sebuah rangkaian peta pasangan nilai kunci, tidak lebih dari 50 pasang.Setiap kunci adalah string UTF -8, panjangnya tidak kurang dari 1 atau lebih dari 128 byte.
Setiap nilai adalah string UTF -8, panjangnya tidak lebih dari 256 byte.
Menentukan untuk mengembalikan hanya sumber daya ditandai saja.
Respons
-
CrawlerNames
— Sebuah array UTF -8 string, tidak lebih dari 100 string.Nama dari semua crawler dalam akun, atau crawler dengan tag yang ditentukan.
-
NextToken
— UTF -8 string.Sebuah token kelanjutan, jika daftar yang dikembalikan tidak berisi metrik terakhir yang tersedia.
Kesalahan
OperationTimeoutException
ListCrawls tindakan (Python: list_crawls)
Mengembalikan semua crawl dari crawler tertentu. Hanya mengembalikan crawl yang telah terjadi sejak tanggal peluncuran fitur riwayat perayap, dan hanya mempertahankan perayapan hingga 12 bulan. Perayapan yang lebih tua tidak akan dikembalikan.
Anda dapat menggunakan ini API untuk:
-
Ambil semua crawl dari crawler tertentu.
-
Ambil semua crawl crawler tertentu dalam hitungan terbatas.
-
Ambil semua crawl crawler tertentu dalam rentang waktu tertentu.
-
Ambil semua crawl crawler tertentu dengan status tertentu, ID crawl, atau nilai jam. DPU
Permintaan
-
CrawlerName
- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 255 byte, cocok dengan file. Single-line string patternNama crawler yang menjalankan Anda ingin mengambil.
-
MaxResults
— Nomor (bilangan bulat), tidak kurang dari 1 atau lebih dari 1000.Jumlah hasil maksimum yang akan dikembalikan. Defaultnya adalah 20, dan maksimum adalah 100.
-
Filters
– Susunan objek CrawlsFilter.Memfilter crawl berdasarkan kriteria yang Anda tentukan dalam daftar
CrawlsFilter
objek. -
NextToken
— UTF -8 string.Sebuah token kelanjutan, jika ini adalah panggilan kelanjutan.
Respons
-
Crawls
– Susunan objek CrawlerHistory.Daftar
CrawlerHistory
objek yang mewakili proses crawl yang memenuhi kriteria Anda. -
NextToken
— UTF -8 string.Sebuah token kelanjutan untuk pemberian nomor halaman untuk daftar token yang ditampilkan, dikembalikan jika segmen saat ini dari daftar tersebut bukan yang terakhir.
Kesalahan
EntityNotFoundException
OperationTimeoutException
InvalidInputException