API pekerjaan visual - AWS Glue
 —  tipe data  —CodeGenConfigurationNodeJDBCConnectorPilihanStreamingDataPreviewOptionsAthenaConnectorSourceJDBCConnectorSumberSparkConnectorSourceCatalogSourceSQLCatalogSumber sayaSumber Postgre SQLCatalogSumber Oracle SQLCatalogMicrosoft SQLServer CatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOpsiS3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceLangsung JDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceSumber Dynamo DBCatalogRelationalCatalogSourceJDBCConnectorTargetSparkConnectorTargetBasicCatalogTargetSQLCatalogTarget sayaTarget Postgre SQLCatalogTarget Oracle SQLCatalogMicrosoft SQLServer CatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingPemetaanSelectFieldsDropFieldsRenameFieldSpigotJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFilterFilterExpressionFilterValueCustomCodeSparkSQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldJenisDataGabungkanUnionPIIDetectionAgregatDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQResultsPublishingOptionsDQStopJobOnFailureOptionsEvaluateDataQualityMultiFrameResepRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTargetRecipeStepRecipeActionConditionExpression

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

API pekerjaan visual

Visual job API memungkinkan Anda membuat pekerjaan integrasi data dengan menggunakan AWS Glue API dari objek JSON yang mewakili konfigurasi visual suatu AWS Glue pekerjaan.

Daftar CodeGenConfigurationNodes disediakan untuk membuat atau memperbarui API pekerjaan untuk mendaftarkan DAG di AWS Glue Studio untuk pekerjaan yang dibuat dan menghasilkan kode terkait.

Jenis data

CodeGenConfigurationNode struktur

CodeGenConfigurationNodemenghitung semua jenis Node yang valid. Satu dan hanya satu variabel anggotanya yang dapat diisi.

Bidang
  • AthenaConnectorSource — Sebuah objek AthenaConnectorSource.

    Menentukan konektor ke sumber data Amazon Athena.

  • JDBCConnectorSource — Sebuah objek JDBCConnectorSumber.

    Menentukan konektor ke sumber data JDBC.

  • SparkConnectorSource — Sebuah objek SparkConnectorSource.

    Menentukan konektor ke sumber data Apache Spark.

  • CatalogSource — Sebuah objek CatalogSource.

    Menentukan penyimpanan data dalam Katalog AWS Glue Data.

  • RedshiftSource — Sebuah objek RedshiftSource.

    Menentukan penyimpanan data Amazon Redshift.

  • S3CatalogSource — Sebuah objek S3 CatalogSource.

    Menentukan penyimpanan data Amazon S3 di Katalog Data AWS Glue .

  • S3CsvSource — Sebuah objek S3 CsvSource.

    Menentukan penyimpanan data nilai yang dipisahkan perintah (CSV) yang disimpan di Amazon S3.

  • S3JsonSource — Sebuah objek S3 JsonSource.

    Menentukan penyimpanan data JSON yang disimpan di Amazon S3.

  • S3ParquetSource — Sebuah objek S3 ParquetSource.

    Menentukan penyimpanan data Apache Parquet yang disimpan di Amazon S3.

  • RelationalCatalogSource — Sebuah objek RelationalCatalogSource.

    Menentukan penyimpanan data katalog relasional dalam Katalog AWS Glue Data.

  • DynamoDBCatalogSource — Sebuah objek Sumber Dynamo DBCatalog.

    Menentukan penyimpanan data DynamoDBC Catalog di Data Catalog. AWS Glue

  • JDBCConnectorTarget — Sebuah objek JDBCConnectorTarget.

    Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

  • SparkConnectorTarget — Sebuah objek SparkConnectorTarget.

    Menentukan target yang menggunakan konektor Apache Spark.

  • CatalogTarget — Sebuah objek BasicCatalogTarget.

    Menentukan target yang menggunakan tabel AWS Glue Data Catalog.

  • RedshiftTarget — Sebuah objek RedshiftTarget.

    Menentukan target yang menggunakan Amazon Redshift.

  • S3CatalogTarget — Sebuah objek S3 CatalogTarget.

    Menentukan target data yang menulis ke Amazon S3 menggunakan Katalog Data AWS Glue .

  • S3GlueParquetTarget — Sebuah objek S3 GlueParquetTarget.

    Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

  • S3DirectTarget — Sebuah objek S3 DirectTarget.

    Menentukan target data yang menulis ke Amazon S3.

  • ApplyMapping — Sebuah objek ApplyMapping.

    Menentukan transformasi yang memetakan kunci properti data dalam sumber data ke kunci properti data dalam target data. Anda dapat mengganti nama kunci, memodifikasi tipe data untuk kunci, dan memilih kunci mana yang akan dibuang dari set data.

  • SelectFields — Sebuah objek SelectFields.

    Menentukan transformasi yang memilih kunci properti data yang ingin Anda simpan.

  • DropFields — Sebuah objek DropFields.

    Menentukan transformasi yang memilih kunci properti data yang ingin Anda drop.

  • RenameField — Sebuah objek RenameField.

    Menentukan transformasi yang mengganti nama kunci properti data tunggal.

  • Spigot — Sebuah objek Spigot.

    Menentukan transformasi yang menulis sampel data ke bucket Amazon S3.

  • Join — Sebuah objek Join.

    Menentukan transformasi yang menggabungkan dua dataset menjadi satu dataset menggunakan frase perbandingan pada kunci properti data tertentu. Anda dapat menggunakan join bagian dalam, luar, kiri, kanan, kiri semi, dan lawan kiri.

  • SplitFields — Sebuah objek SplitFields.

    Menentukan transformasi yang membagi kunci properti data menjadi dua. DynamicFrames Outputnya adalah kumpulanDynamicFrames: satu dengan kunci properti data yang dipilih, dan satu dengan kunci properti data yang tersisa.

  • SelectFromCollection — Sebuah objek SelectFromCollection.

    Menentukan transformasi yang memilih salah satu DynamicFrame dari koleksi. DynamicFrames Outputnya adalah yang dipilih DynamicFrame

  • FillMissingValues — Sebuah objek FillMissingValues.

    Menentukan transformasi yang menempatkan catatan dalam dataset yang memiliki nilai hilang dan menambahkan bidang baru dengan nilai ditentukan oleh imputasi. Kumpulan data input digunakan untuk melatih model pembelajaran mesin yang menentukan nilai yang hilang seharusnya.

  • Filter — Sebuah objek Filter.

    Menentukan transformasi yang membagi dataset menjadi dua, berdasarkan kondisi filter.

  • CustomCode — Sebuah objek CustomCode.

    Menentukan transformasi yang menggunakan kode kustom yang Anda berikan untuk melakukan transformasi data. Outputnya adalah kumpulan DynamicFrames.

  • SparkSQL — Sebuah objek SparkSQL.

    Menentukan transformasi di mana Anda memasukkan query SQL menggunakan sintaks Spark SQL untuk mengubah data. Outputnya adalah satu DynamicFrame.

  • DirectKinesisSource — Sebuah objek DirectKinesisSource.

    Menentukan sumber data Amazon Kinesis langsung.

  • DirectKafkaSource — Sebuah objek DirectKafkaSource.

    Menentukan toko data Apache Kafka.

  • CatalogKinesisSource — Sebuah objek CatalogKinesisSource.

    Menentukan sumber data Kinesis dalam Katalog Data AWS Glue .

  • CatalogKafkaSource — Sebuah objek CatalogKafkaSource.

    Menentukan penyimpanan data Apache Kafka dalam Katalog Data.

  • DropNullFields — Sebuah objek DropNullFields.

    Menentukan transformasi yang menghapus kolom dari dataset jika semua nilai dalam kolom adalah 'null'. Secara default, AWS Glue Studio akan mengenali objek null, tetapi beberapa nilai seperti string kosong, string yang “null”, -1 integer atau placeholder lain seperti nol, tidak secara otomatis dikenali sebagai nol.

  • Merge — Sebuah objek Gabungkan.

    Menentukan transformasi yang menggabungkan DynamicFrame dengan pementasan DynamicFrame berdasarkan kunci utama yang ditentukan untuk mengidentifikasi catatan. Catatan duplikat (catatan dengan kunci primer yang sama) tidak di-deduplikasi.

  • Union — Sebuah objek Union.

    Menentukan transformasi yang menggabungkan baris dari dua atau lebih dataset menjadi hasil tunggal.

  • PIIDetection — Sebuah objek PIIDetection.

    Menentukan transformasi yang mengidentifikasi, menghapus atau menutupi data PII.

  • Aggregate — Sebuah objek Agregat.

    Menentukan transformasi yang mengelompokkan baris dengan bidang yang dipilih dan menghitung nilai agregat dengan fungsi tertentu.

  • DropDuplicates — Sebuah objek DropDuplicates.

    Menentukan transformasi yang menghapus baris data berulang dari kumpulan data.

  • GovernedCatalogTarget — Sebuah objek GovernedCatalogTarget.

    Menentukan target data yang menulis ke katalog yang diatur.

  • GovernedCatalogSource — Sebuah objek GovernedCatalogSource.

    Menentukan sumber data dalam Katalog Data yang diatur.

  • MicrosoftSQLServerCatalogSource — Sebuah objek Microsoft SQLServer CatalogSource.

    Menentukan sumber data server Microsoft SQL dalam Katalog AWS Glue Data.

  • MySQLCatalogSource — Sebuah objek SQLCatalogSumber saya.

    Menentukan sumber data MySQL dalam Katalog Data. AWS Glue

  • OracleSQLCatalogSource — Sebuah objek Sumber Oracle SQLCatalog.

    Menentukan sumber data Oracle dalam Katalog AWS Glue Data.

  • PostgreSQLCatalogSource — Sebuah objek Sumber Postgre SQLCatalog.

    Menentukan sumber data PostgressQL dalam Katalog Data. AWS Glue

  • MicrosoftSQLServerCatalogTarget — Sebuah objek Microsoft SQLServer CatalogTarget.

    Menentukan target yang menggunakan Microsoft SQL.

  • MySQLCatalogTarget — Sebuah objek SQLCatalogTarget saya.

    Menentukan target yang menggunakan MySQL.

  • OracleSQLCatalogTarget — Sebuah objek Target Oracle SQLCatalog.

    Menentukan target yang menggunakan Oracle SQL.

  • PostgreSQLCatalogTarget — Sebuah objek Target Postgre SQLCatalog.

    Menentukan target yang menggunakan Postgres SQL.

  • DynamicTransform — Sebuah objek DynamicTransform.

    Menentukan transformasi visual kustom yang dibuat oleh pengguna.

  • EvaluateDataQuality — Sebuah objek EvaluateDataQuality.

    Menentukan kriteria evaluasi kualitas data Anda.

  • S3CatalogHudiSource — Sebuah objek S3 CatalogHudiSource.

    Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data. Sumber data harus disimpan di Amazon S3.

  • CatalogHudiSource — Sebuah objek CatalogHudiSource.

    Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data.

  • S3HudiSource — Sebuah objek S3 HudiSource.

    Menentukan sumber data Hudi yang disimpan di. Amazon S3

  • S3HudiCatalogTarget — Sebuah objek S3 HudiCatalogTarget.

    Menentukan target yang menulis ke sumber data Hudi di Katalog AWS Glue Data.

  • S3HudiDirectTarget — Sebuah objek S3 HudiDirectTarget.

    Menentukan target yang menulis ke sumber data Hudi di. Amazon S3

  • S3CatalogDeltaSource — Sebuah objek S3 CatalogDeltaSource.

    Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data. Sumber data harus disimpan di Amazon S3.

  • CatalogDeltaSource — Sebuah objek CatalogDeltaSource.

    Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data.

  • S3DeltaSource — Sebuah objek S3 DeltaSource.

    Menentukan sumber data Delta Lake yang disimpan di. Amazon S3

  • S3DeltaCatalogTarget — Sebuah objek S3 DeltaCatalogTarget.

    Menentukan target yang menulis ke sumber data Delta Lake di Katalog AWS Glue Data.

  • S3DeltaDirectTarget — Sebuah objek S3 DeltaDirectTarget.

    Menentukan target yang menulis ke sumber data Delta Lake di. Amazon S3

  • AmazonRedshiftSource — Sebuah objek AmazonRedshiftSource.

    Menentukan target yang menulis ke sumber data di Amazon Redshift.

  • AmazonRedshiftTarget — Sebuah objek AmazonRedshiftTarget.

    Menentukan target yang menulis ke target data di Amazon Redshift.

  • EvaluateDataQualityMultiFrame — Sebuah objek EvaluateDataQualityMultiFrame.

    Menentukan kriteria evaluasi kualitas data Anda. Memungkinkan beberapa input data dan mengembalikan koleksi Dynamic Frames.

  • Recipe — Sebuah objek Resep.

    Menentukan simpul AWS Glue DataBrew resep.

  • SnowflakeSource — Sebuah objek SnowflakeSource.

    Menentukan sumber data Snowflake.

  • SnowflakeTarget — Sebuah objek SnowflakeTarget.

    Menentukan target yang menulis ke sumber data Snowflake.

  • ConnectorDataSource — Sebuah objek ConnectorDataSource.

    Menentukan sumber yang dihasilkan dengan pilihan koneksi standar.

  • ConnectorDataTarget — Sebuah objek ConnectorDataTarget.

    Menentukan target yang dihasilkan dengan pilihan koneksi standar.

JDBCConnectorStruktur pilihan

Opsi koneksi tambahan untuk konektor.

Bidang
  • FilterPredicate — String UTF-8, yang cocok dengan Custom string pattern #59.

    Klausul kondisi tambahan untuk memfilter data dari sumber. Sebagai contoh:

    BillingCity='Mountain View'

    Saat menggunakan kueri alih-alih nama tabel, Anda harus memvalidasi bahwa kueri berfungsi dengan yang ditentukanfilterPredicate.

  • PartitionColumn — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama kolom integer yang digunakan untuk partisi. Opsi ini bekerja hanya ketika ia disertakan dengan lowerBound, upperBound, dan numPartitions. Pilihan ini bekerja dengan cara yang sama seperti pada pembaca Spark SQL JDBC.

  • LowerBound— Jumlah (panjang), tidak lebih dari Tidak ada.

    Nilai minimum partitionColumn yang digunakan untuk memutuskan langkah partisi.

  • UpperBound— Jumlah (panjang), tidak lebih dari Tidak ada.

    Nilai maksimum partitionColumn yang digunakan untuk memutuskan langkah partisi.

  • NumPartitions— Jumlah (panjang), tidak lebih dari Tidak ada.

    Jumlah partisi. Nilai ini, bersama dengan lowerBound (inklusif) dan upperBound (eksklusif), membentuk langkah partisi untuk ekspresi klausul WHERE yang dihasilkan yang digunakan untuk membagi partitionColumn.

  • JobBookmarkKeys – Susunan string UTF-8.

    Nama kunci bookmark pekerjaan untuk mengurutkan.

  • JobBookmarkKeysSortOrder — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan urutan urutan naik atau turun.

  • DataTypeMapping – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8 (nilai yang valid: ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE TIMESTAMP TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY |VARCHAR).

    Setiap nilai adalah string UTF-8 (nilai valid: DATE | | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL BYTE SHORT |DOUBLE).

    Pemetaan tipe data kustom yang membangun pemetaan dari tipe data JDBC ke tipe data. AWS Glue Misalnya, opsi "dataTypeMapping":{"FLOAT":"STRING"} memetakan bidang data tipe JDBC FLOAT ke dalam String tipe Java dengan memanggil ResultSet.getString() metode driver, dan menggunakannya untuk membangun catatan. AWS Glue Objek ResultSet dilaksanakan oleh masing-masing driver, sehingga perilaku bersifat spesifik untuk driver yang Anda gunakan. Lihat dokumentasi untuk driver JDBC Anda untuk memahami bagaimana driver melakukan konversi.

StreamingDataPreviewOptions struktur

Menentukan pilihan yang terkait dengan pratinjau data untuk melihat sampel data Anda.

Bidang
  • PollingTime— Jumlah (panjang), setidaknya 10.

    Waktu pemungutan suara dalam milidetik.

  • RecordPollingLimit— Jumlah (panjang), setidaknya 1.

    Batas jumlah catatan yang disurvei.

AthenaConnectorSource struktur

Menentukan konektor ke sumber data Amazon Athena.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama dari sumber data.

  • ConnectionNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectorNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama konektor yang membantu mengakses penyimpanan data di Studio. AWS Glue

  • ConnectionTypeWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jenis koneksi, seperti marketplace.athena atau custom.athena, menunjuk koneksi ke toko data Amazon Athena.

  • ConnectionTable — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel di sumber data.

  • SchemaNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama grup log Cloudwatch untuk dibaca. Misalnya, /aws-glue/jobs/output.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Athena kustom.

JDBCConnectorStruktur sumber

Menentukan konektor ke sumber data JDBC.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama dari sumber data.

  • ConnectionNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectorNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama konektor yang membantu mengakses penyimpanan data di Studio. AWS Glue

  • ConnectionTypeWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jenis koneksi, seperti marketplace.jdbc atau custom.jdbc, menunjuk koneksi ke penyimpanan data JDBC.

  • AdditionalOptions — Sebuah objek JDBCConnectorPilihan.

    Opsi koneksi tambahan untuk konektor.

  • ConnectionTable — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel di sumber data.

  • Query — String UTF-8, yang cocok dengan Custom string pattern #60.

    Tabel atau query SQL untuk mendapatkan data dari. Anda dapat menentukan salah satu dari ConnectionTable atau query, bukan keduanya.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber JDBC kustom.

SparkConnectorSource struktur

Menentukan konektor ke sumber data Apache Spark.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama dari sumber data.

  • ConnectionNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectorNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama konektor yang membantu mengakses penyimpanan data di Studio. AWS Glue

  • ConnectionTypeWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jenis koneksi, seperti marketplace.spark atau custom.spark, menunjuk koneksi ke penyimpanan data Apache Spark.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Opsi koneksi tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber percikan kustom.

CatalogSource struktur

Menentukan penyimpanan data dalam Katalog AWS Glue Data.

Bidang

Struktur SQLCatalog Sumber Saya

Menentukan sumber data MySQL dalam Katalog Data. AWS Glue

Bidang

Struktur Sumber Postgre SQLCatalog

Menentukan sumber data PostgressQL dalam Katalog Data. AWS Glue

Bidang

Struktur SQLCatalog Sumber Oracle

Menentukan sumber data Oracle dalam Katalog AWS Glue Data.

Bidang

SQLServerCatalogSource Struktur Microsoft

Menentukan sumber data server Microsoft SQL dalam Katalog AWS Glue Data.

Bidang

CatalogKinesisSource struktur

Menentukan sumber data Kinesis dalam Katalog Data AWS Glue .

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama dari sumber data.

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk dibaca.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk dibaca.

  • StreamingOptions — Sebuah objek KinesisStreamingSourceOptions.

    Opsi tambahan untuk sumber data streaming Kinesis.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Opsi tambahan untuk pratinjau data.

DirectKinesisSource struktur

Menentukan sumber data Amazon Kinesis langsung.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama dari sumber data.

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • StreamingOptions — Sebuah objek KinesisStreamingSourceOptions.

    Opsi tambahan untuk sumber data streaming Kinesis.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Opsi tambahan untuk pratinjau data.

KinesisStreamingSourceOptions struktur

Opsi tambahan untuk sumber data streaming Amazon Kinesis.

Bidang
  • EndpointUrl — String UTF-8, yang cocok dengan Custom string pattern #59.

    URL dari titik akhir Kinesis.

  • StreamName — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama aliran data Kinesis.

  • Classification — String UTF-8, yang cocok dengan Custom string pattern #59.

    Klasifikasi opsional.

  • Delimiter — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan karakter pembatas.

  • StartingPosition – String UTF-8 (nilai yang valid: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" | timestamp="TIMESTAMP").

    Posisi awal dalam aliran data Kinesis untuk membaca data dari. Nilai yang mungkin adalah"latest",, "trim_horizon""earliest", atau string stempel waktu dalam format UTC dalam pola yyyy-mm-ddTHH:MM:SSZ (di mana Z mewakili zona waktu UTC offset dengan +/-. Misalnya: “2023-04-04T 08:00:00-04:00 “). Nilai default-nya adalah "latest".

    Catatan: Menggunakan nilai yang merupakan string stempel waktu dalam format UTC untuk “startingPosition” hanya didukung untuk versi 4.0 atau yang lebih baru. AWS Glue

  • MaxFetchTimeInMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Waktu maksimum yang dihabiskan untuk pelaksana pekerjaan untuk membaca catatan untuk batch saat ini dari aliran data Kinesis, ditentukan dalam milidetik (ms). Beberapa panggilan GetRecords API dapat dilakukan dalam waktu ini. Nilai default-nya adalah 1000.

  • MaxFetchRecordsPerShard— Jumlah (panjang), tidak lebih dari Tidak ada.

    Jumlah maksimum catatan yang diambil per pecahan dalam aliran data Kinesis per mikrobatch. Catatan: Klien dapat melampaui batas ini jika pekerjaan streaming telah membaca catatan tambahan dari Kinesis (dalam panggilan get-records yang sama). Jika MaxFetchRecordsPerShard perlu ketat maka itu harus kelipatanMaxRecordPerRead. Nilai default-nya adalah 100000.

  • MaxRecordPerRead— Jumlah (panjang), tidak lebih dari Tidak ada.

    Jumlah maksimum record untuk diambil dari Kinesis data stream di setiap operasi GetRecords. Nilai default-nya adalah 10000.

  • AddIdleTimeBetweenReads – Boolean.

    Menambahkan penundaan waktu antara dua operasi GetRecords berturut-turut. Nilai default-nya adalah "False". Opsi ini hanya dapat dikonfigurasi untuk Glue versi 2.0 dan di atasnya.

  • IdleTimeBetweenReadsInMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Waktu tunda minimum antara dua operasi GetRecords berturut-turut, ditentukan dalam ms. Nilai default-nya adalah 1000. Opsi ini hanya dapat dikonfigurasi untuk Glue versi 2.0 dan di atasnya.

  • DescribeShardInterval— Jumlah (panjang), tidak lebih dari Tidak ada.

    Interval waktu minimum antara dua panggilan ListShards API untuk skrip Anda untuk mempertimbangkan resharding. Nilai default-nya adalah 1s.

  • NumRetries — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah maksimum percobaan ulang untuk permintaan API Kinesis Data Streams. Nilai default-nya adalah 3.

  • RetryIntervalMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Periode waktu pendinginan (ditentukan dalam ms) sebelum mencoba kembali panggilan API Kinesis Data Streams. Nilai default-nya adalah 1000.

  • MaxRetryIntervalMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Periode waktu pendinginan maksimum (ditentukan dalam ms) antara dua percobaan ulang panggilan API Kinesis Data Streams. Nilai default-nya adalah 10000.

  • AvoidEmptyBatches – Boolean.

    Hindari membuat pekerjaan microbatch kosong dengan memeriksa data yang belum dibaca di aliran data Kinesis sebelum batch dimulai. Nilai default-nya adalah "False".

  • StreamArn — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama Sumber Daya Amazon (ARN) dari aliran data Kinesis.

  • RoleArn — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama Sumber Daya Amazon (ARN) dari peran yang akan diambil menggunakan AWS Security Token Service (AWS STS). Peran ini harus memiliki izin untuk mendeskripsikan atau membaca operasi rekaman untuk aliran data Kinesis. Anda harus menggunakan parameter ini saat mengakses aliran data di akun yang berbeda. Digunakan bersama dengan"awsSTSSessionName".

  • RoleSessionName — String UTF-8, yang cocok dengan Custom string pattern #59.

    Pengidentifikasi untuk sesi dengan asumsi peran menggunakan AWS STS. Anda harus menggunakan parameter ini saat mengakses aliran data di akun yang berbeda. Digunakan bersama dengan"awsSTSRoleARN".

  • AddRecordTimestamp — String UTF-8, yang cocok dengan Custom string pattern #59.

    Ketika opsi ini diatur ke 'true', output data akan berisi kolom tambahan bernama “__src_timestamp” yang menunjukkan waktu ketika catatan terkait diterima oleh aliran. Nilai default adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • EmitConsumerLagMetrics — String UTF-8, yang cocok dengan Custom string pattern #59.

    Ketika opsi ini disetel ke 'true', untuk setiap batch, itu akan memancarkan metrik untuk durasi antara rekaman tertua yang diterima oleh aliran dan waktu pemasangannya. AWS Glue CloudWatch Nama metriknya adalah “glue.driver.streaming. maxConsumerLagInMs”. Nilai default adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • StartingTimestamp – String UTF-8.

    Stempel waktu catatan dalam aliran data Kinesis untuk mulai membaca data dari. Nilai yang mungkin adalah string stempel waktu dalam format UTC dari pola yyyy-mm-ddTHH:MM:SSZ (di mana Z mewakili offset zona waktu UTC dengan +/-. Misalnya: “2023-04-04T 08:00:00 + 08:00 “).

CatalogKafkaSource struktur

Menentukan penyimpanan data Apache Kafka dalam Katalog Data.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama penyimpanan data

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk dibaca.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk dibaca.

  • StreamingOptions — Sebuah objek KafkaStreamingSourceOptions.

    Menentukan opsi streaming.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Menentukan pilihan yang terkait dengan pratinjau data untuk melihat sampel data Anda.

DirectKafkaSource struktur

Menentukan toko data Apache Kafka.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama penyimpanan data

  • StreamingOptions — Sebuah objek KafkaStreamingSourceOptions.

    Menentukan opsi streaming.

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Menentukan pilihan yang terkait dengan pratinjau data untuk melihat sampel data Anda.

KafkaStreamingSourceOptions struktur

Opsi tambahan untuk streaming.

Bidang
  • BootstrapServers — String UTF-8, yang cocok dengan Custom string pattern #59.

    Daftar server bootstrap URLs, misalnya, sebagaib-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Opsi ini harus ditentukan dalam panggilan API atau didefinisikan dalam metadata tabel dalam Katalog Data.

  • SecurityProtocol — String UTF-8, yang cocok dengan Custom string pattern #59.

    Protokol yang digunakan untuk berkomunikasi dengan broker. Nilai yang mungkin adalah "SSL" atau "PLAINTEXT".

  • ConnectionName — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi.

  • TopicName — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama topik seperti yang ditentukan dalam Apache Kafka. Anda harus menentukan setidaknya satu "topicName", "assign" atau "subscribePattern".

  • Assign — String UTF-8, yang cocok dengan Custom string pattern #59.

    Spesifik TopicPartitions untuk dikonsumsi. Anda harus menentukan setidaknya satu "topicName", "assign" atau "subscribePattern".

  • SubscribePattern — String UTF-8, yang cocok dengan Custom string pattern #59.

    String regex Java yang mengidentifikasi daftar topik untuk berlangganan. Anda harus menentukan setidaknya satu "topicName", "assign" atau "subscribePattern".

  • Classification — String UTF-8, yang cocok dengan Custom string pattern #59.

    Klasifikasi opsional.

  • Delimiter — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan karakter pembatas.

  • StartingOffsets — String UTF-8, yang cocok dengan Custom string pattern #59.

    Posisi awal dalam topik Kafka untuk membaca data dari. Nilai yang mungkin adalah "earliest" atau "latest". Nilai default-nya adalah "latest".

  • EndingOffsets — String UTF-8, yang cocok dengan Custom string pattern #59.

    Titik akhir ketika kueri batch berakhir. Nilai yang mungkin adalah "latest" atau string JSON yang menentukan sebuah ending offset untuk setiap TopicPartition.

  • PollTimeoutMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Batas waktu dalam milidetik untuk polling data dari Kafka di pelaksana pekerjaan Spark. Nilai default-nya adalah 512.

  • NumRetries — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Berapa kali untuk mencoba lagi sebelum gagal mengambil offset Kafka. Nilai default-nya adalah 3.

  • RetryIntervalMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Waktu dalam milidetik untuk menunggu sebelum mencoba lagi untuk mengambil offset Kafka. Nilai default-nya adalah 10.

  • MaxOffsetsPerTrigger— Jumlah (panjang), tidak lebih dari Tidak ada.

    Batas laju pada jumlah maksimum offset yang diproses per interval pemicu. Jumlah total offset yang ditentukan dibagi secara proporsional di seluruh topicPartitions dengan volume yang berbeda. Nilai default-nya adalah nol, yang berarti bahwa konsumen membaca semua offset sampai diketahui offset terbaru.

  • MinPartitions — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah minimum partisi yang diinginkan untuk dibaca dari Kafka. Nilai default-nya adalah nol, yang berarti bahwa jumlah partisi spark sama dengan jumlah partisi Kafka.

  • IncludeHeaders – Boolean.

    Apakah akan menyertakan header Kafka. Ketika opsi diatur ke “true”, output data akan berisi kolom tambahan bernama “glue_streaming_kafka_headers” dengan tipe. Array[Struct(key: String, value: String)] Nilai default adalah “false”. Opsi ini hanya tersedia dalam AWS Glue versi 3.0 atau yang lebih baru.

  • AddRecordTimestamp — String UTF-8, yang cocok dengan Custom string pattern #59.

    Ketika opsi ini diatur ke 'true', output data akan berisi kolom tambahan bernama “__src_timestamp” yang menunjukkan waktu ketika catatan terkait diterima oleh topik. Nilai default adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • EmitConsumerLagMetrics — String UTF-8, yang cocok dengan Custom string pattern #59.

    Ketika opsi ini disetel ke 'true', untuk setiap batch, itu akan memancarkan metrik untuk durasi antara catatan tertua yang diterima oleh topik dan waktu tiba. AWS Glue CloudWatch Nama metriknya adalah “glue.driver.streaming. maxConsumerLagInMs”. Nilai default adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • StartingTimestamp – String UTF-8.

    Stempel waktu catatan dalam topik Kafka untuk mulai membaca data dari. Nilai yang mungkin adalah string stempel waktu dalam format UTC dari pola yyyy-mm-ddTHH:MM:SSZ (di mana Z mewakili offset zona waktu UTC dengan +/-. Misalnya: “2023-04-04T 08:00:00 + 08:00 “).

    Hanya satu dari StartingTimestamp atau StartingOffsets harus ditetapkan.

RedshiftSource struktur

Menentukan penyimpanan data Amazon Redshift.

Bidang

AmazonRedshiftSource struktur

Menentukan sumber Amazon Redshift.

Bidang

AmazonRedshiftNodeData struktur

Menentukan node Amazon Redshift.

Bidang
  • AccessType — String UTF-8, yang cocok dengan Custom string pattern #58.

    Jenis akses untuk koneksi Redshift. Bisa berupa koneksi langsung atau koneksi katalog.

  • SourceType — String UTF-8, yang cocok dengan Custom string pattern #58.

    Jenis sumber untuk menentukan apakah tabel tertentu adalah sumber atau kueri kustom.

  • Connection — Sebuah objek Opsi.

    AWS Glue Koneksi ke cluster Redshift.

  • Schema — Sebuah objek Opsi.

    Nama skema Redshift saat bekerja dengan koneksi langsung.

  • Table — Sebuah objek Opsi.

    Nama tabel Redshift saat bekerja dengan koneksi langsung.

  • CatalogDatabase — Sebuah objek Opsi.

    Nama database Katalog AWS Glue Data saat bekerja dengan katalog data.

  • CatalogTable — Sebuah objek Opsi.

    Nama tabel Katalog AWS Glue Data saat bekerja dengan katalog data.

  • CatalogRedshiftSchema – String UTF-8.

    Nama skema Redshift saat bekerja dengan katalog data.

  • CatalogRedshiftTable – String UTF-8.

    Tabel database untuk dibaca.

  • TempDir — String UTF-8, yang cocok dengan Custom string pattern #59.

    Jalur Amazon S3 tempat data sementara dapat dipentaskan saat menyalin dari database.

  • IamRole — Sebuah objek Opsi.

    Tidak wajib. Nama peran digunakan saat koneksi ke S3. Peran IAM tidak akan default ke peran pada pekerjaan saat dibiarkan kosong.

  • AdvancedOptions – Susunan objek AmazonRedshiftAdvancedOption.

    Nilai opsional saat menghubungkan ke cluster Redshift.

  • SampleQuery – String UTF-8.

    SQL digunakan untuk mengambil data dari sumber Redshift saat 'kueri'. SourceType

  • PreAction – String UTF-8.

    SQL yang digunakan sebelum MERGE atau APPEND dengan upsert dijalankan.

  • PostAction – String UTF-8.

    SQL yang digunakan sebelum MERGE atau APPEND dengan upsert dijalankan.

  • Action – String UTF-8.

    Menentukan bagaimana menulis ke cluster Redshift akan terjadi.

  • TablePrefix — String UTF-8, yang cocok dengan Custom string pattern #58.

    Menentukan awalan untuk tabel.

  • Upsert – Boolean.

    Tindakan yang digunakan pada Redshift tenggelam saat melakukan APPEND.

  • MergeAction — String UTF-8, yang cocok dengan Custom string pattern #58.

    Tindakan yang digunakan saat menentukan bagaimana MERGE di wastafel Redshift akan ditangani.

  • MergeWhenMatched — String UTF-8, yang cocok dengan Custom string pattern #58.

    Tindakan yang digunakan saat menentukan bagaimana MERGE di wastafel Redshift akan ditangani ketika rekor yang ada cocok dengan rekor baru.

  • MergeWhenNotMatched — String UTF-8, yang cocok dengan Custom string pattern #58.

    Tindakan yang digunakan saat menentukan bagaimana MERGE di wastafel Redshift akan ditangani ketika rekaman yang ada tidak cocok dengan rekor baru.

  • MergeClause – String UTF-8.

    SQL digunakan dalam penggabungan kustom untuk menangani catatan yang cocok.

  • CrawlerConnection – String UTF-8.

    Menentukan nama koneksi yang terkait dengan tabel katalog yang digunakan.

  • TableSchema – Susunan objek Opsi.

    Array output skema untuk node tertentu.

  • StagingTable – String UTF-8.

    Nama tabel pementasan sementara yang digunakan saat melakukan MERGE atau APPEND dengan upsert.

  • SelectedColumns – Susunan objek Opsi.

    Daftar nama kolom yang digunakan untuk menentukan record yang cocok saat melakukan MERGE atau APPEND dengan upsert.

AmazonRedshiftAdvancedOption struktur

Menentukan nilai opsional saat menghubungkan ke cluster Redshift.

Bidang
  • Key – String UTF-8.

    Kunci untuk opsi koneksi tambahan.

  • Value – String UTF-8.

    Nilai untuk opsi koneksi tambahan.

Struktur opsi

Menentukan nilai pilihan.

Bidang

Struktur S3 CatalogSource

Menentukan penyimpanan data Amazon S3 di Katalog Data AWS Glue .

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama penyimpanan data

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Database untuk dibaca.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Tabel database untuk dibaca.

  • PartitionPredicate — String UTF-8, yang cocok dengan Custom string pattern #59.

    Partisi yang memenuhi predikat ini dihapus. File dalam periode penyimpanan dalam partisi ini tidak dihapus. Diatur ke "" — kosong secara default.

  • AdditionalOptions — Sebuah objek S3 SourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

Struktur S3 SourceAdditionalOptions

Menentukan opsi koneksi tambahan untuk penyimpanan data Amazon S3.

Bidang
  • BoundedSize — Nomor (panjang).

    Menetapkan batas atas untuk ukuran target dari dataset dalam byte yang akan diproses.

  • BoundedFiles — Nomor (panjang).

    Menetapkan batas atas untuk jumlah target file yang akan diproses.

Struktur S3 CsvSource

Menentukan penyimpanan data nilai yang dipisahkan perintah (CSV) yang disimpan di Amazon S3.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama penyimpanan data

  • PathsWajib: Susunan string UTF-8.

    Daftar jalur Amazon S3 untuk dibaca.

  • CompressionType – String UTF-8 (nilai yang valid: gzip="GZIP" | bzip2="BZIP2").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • Exclusions – Susunan string UTF-8.

    String yang berisi daftar JSON pola glob gaya Unix untuk dikecualikan. Misalnya, “[\" **.pdf\ "]” mengecualikan semua file PDF.

  • GroupSize — String UTF-8, yang cocok dengan Custom string pattern #59.

    Ukuran kelompok target dalam byte. Default-nya dihitung berdasarkan ukuran input data dan ukuran klaster Anda. Ketika ada kurang dari 50.000 file input, "groupFiles" harus diatur ke "inPartition" agar ini berlaku.

  • GroupFiles — String UTF-8, yang cocok dengan Custom string pattern #59.

    Pengelompokan file diaktifkan secara default ketika input berisi lebih dari 50.000 file. Untuk mengaktifkan pengelompokan dengan kurang dari 50.000 file, atur parameter ini ke “InPartition”. Untuk menonaktifkan pengelompokan dalam grup ketika ada lebih dari 50.000 file, tetapkan parameter ini ke "none".

  • Recurse – Boolean.

    Jika disetel ke true, secara rekursif membaca file di semua subdirektori di bawah jalur yang ditentukan.

  • MaxBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini mengontrol durasi dalam milidetik setelah itu daftar s3 cenderung konsisten. File dengan cap waktu modifikasi yang termasuk dalam milidetik MaxBand terakhir dilacak secara khusus saat menggunakan JobBookmarks untuk memperhitungkan konsistensi Amazon S3. Sebagian besar pengguna tidak perlu mengatur opsi ini. Default-nya adalah 900000 milidetik, atau 15 menit.

  • MaxFilesInBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini menentukan jumlah maksimum file untuk menyimpan dari detik MaxBand terakhir. Jika jumlah ini terlampaui, file tambahan akan dilewati dan hanya diproses dalam eksekusi tugas berikutnya.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

  • SeparatorWajib: String UTF-8 (nilai yang valid: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB").

    Menentukan karakter pembatas. Defaultnya adalah koma: “,”, tetapi karakter lain dapat ditentukan.

  • Escaper — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan karakter yang akan digunakan untuk melarikan diri. Pilihan ini hanya digunakan saat membaca file CSV saja. Nilai default-nya adalah none. Jika diaktifkan, karakter yang ada langsung setelahnya digunakan apa adanya, kecuali untuk satu set karakter escape yang sudah sangat dikenal (\n, \r, \t, dan \0).

  • QuoteCharWajib: String UTF-8 (nilai yang valid: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED").

    Menentukan karakter yang akan digunakan untuk mengutip. Default-nya adalah kutipan ganda: '"'. Atur ini ke -1 untuk menonaktifkan pengutipan seluruhnya.

  • Multiline – Boolean.

    Nilai Boolean yang menentukan apakah catatan tunggal dapat menjangkau beberapa baris. Hal ini dapat terjadi ketika bidang berisi karakter baris baru yang dikutip. Anda harus mengatur opsi ini ke True jika ada catatan yang mencakup beberapa baris. Nilai default-nya adalah False, yang memungkinkan untuk pemecahan file yang lebih agresif selama penguraian.

  • WithHeader – Boolean.

    Nilai Boolean yang menentukan apakah akan memperlakukan baris pertama sebagai header. Nilai default-nya adalah False.

  • WriteHeader – Boolean.

    Sebuah nilai Boolean yang menentukan apakah untuk menulis header untuk output. Nilai default-nya adalah True.

  • SkipFirst – Boolean.

    Nilai Boolean yang menentukan apakah akan melewati baris data pertama. Nilai default-nya adalah False.

  • OptimizePerformance – Boolean.

    Nilai Boolean yang menentukan apakah akan menggunakan pembaca CSV SIMD canggih bersama dengan format memori kolumnar berbasis Apache Arrow. Hanya tersedia dalam AWS Glue versi 3.0.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber CSV S3.

JDBCSource Struktur langsung

Menentukan koneksi sumber JDBC langsung.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama koneksi sumber JDBC.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Database koneksi sumber JDBC.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Tabel koneksi sumber JDBC.

  • ConnectionNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi sumber JDBC.

  • ConnectionTypeWajib: String UTF-8 (nilai yang valid: sqlserver | mysql | oracle | postgresql | redshift).

    Jenis koneksi sumber JDBC.

  • RedshiftTmpDir — String UTF-8, yang cocok dengan Custom string pattern #59.

    Direktori temp dari sumber JDBC Redshift.

Struktur S3 DirectSourceAdditionalOptions

Menentukan opsi koneksi tambahan untuk penyimpanan data Amazon S3.

Bidang
  • BoundedSize — Nomor (panjang).

    Menetapkan batas atas untuk ukuran target dari dataset dalam byte yang akan diproses.

  • BoundedFiles — Nomor (panjang).

    Menetapkan batas atas untuk jumlah target file yang akan diproses.

  • EnableSamplePath – Boolean.

    Menetapkan opsi untuk mengaktifkan jalur sampel.

  • SamplePath — String UTF-8, yang cocok dengan Custom string pattern #59.

    Jika diaktifkan, menentukan jalur sampel.

Struktur S3 JsonSource

Menentukan penyimpanan data JSON yang disimpan di Amazon S3.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama penyimpanan data

  • PathsWajib: Susunan string UTF-8.

    Daftar jalur Amazon S3 untuk dibaca.

  • CompressionType – String UTF-8 (nilai yang valid: gzip="GZIP" | bzip2="BZIP2").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • Exclusions – Susunan string UTF-8.

    String yang berisi daftar JSON pola glob gaya Unix untuk dikecualikan. Misalnya, “[\" **.pdf\ "]” mengecualikan semua file PDF.

  • GroupSize — String UTF-8, yang cocok dengan Custom string pattern #59.

    Ukuran kelompok target dalam byte. Default-nya dihitung berdasarkan ukuran input data dan ukuran klaster Anda. Ketika ada kurang dari 50.000 file input, "groupFiles" harus diatur ke "inPartition" agar ini berlaku.

  • GroupFiles — String UTF-8, yang cocok dengan Custom string pattern #59.

    Pengelompokan file diaktifkan secara default ketika input berisi lebih dari 50.000 file. Untuk mengaktifkan pengelompokan dengan kurang dari 50.000 file, atur parameter ini ke “InPartition”. Untuk menonaktifkan pengelompokan dalam grup ketika ada lebih dari 50.000 file, tetapkan parameter ini ke "none".

  • Recurse – Boolean.

    Jika disetel ke true, secara rekursif membaca file di semua subdirektori di bawah jalur yang ditentukan.

  • MaxBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini mengontrol durasi dalam milidetik setelah itu daftar s3 cenderung konsisten. File dengan cap waktu modifikasi yang termasuk dalam milidetik MaxBand terakhir dilacak secara khusus saat menggunakan JobBookmarks untuk memperhitungkan konsistensi Amazon S3. Sebagian besar pengguna tidak perlu mengatur opsi ini. Default-nya adalah 900000 milidetik, atau 15 menit.

  • MaxFilesInBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini menentukan jumlah maksimum file untuk menyimpan dari detik MaxBand terakhir. Jika jumlah ini terlampaui, file tambahan akan dilewati dan hanya diproses dalam eksekusi tugas berikutnya.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

  • JsonPath — String UTF-8, yang cocok dengan Custom string pattern #59.

    Sebuah JsonPath string yang mendefinisikan data JSON.

  • Multiline – Boolean.

    Nilai Boolean yang menentukan apakah catatan tunggal dapat menjangkau beberapa baris. Hal ini dapat terjadi ketika bidang berisi karakter baris baru yang dikutip. Anda harus mengatur opsi ini ke True jika ada catatan yang mencakup beberapa baris. Nilai default-nya adalah False, yang memungkinkan untuk pemecahan file yang lebih agresif selama penguraian.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber S3 JSON.

Struktur S3 ParquetSource

Menentukan penyimpanan data Apache Parquet yang disimpan di Amazon S3.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama penyimpanan data

  • PathsWajib: Susunan string UTF-8.

    Daftar jalur Amazon S3 untuk dibaca.

  • CompressionType – String UTF-8 (nilai yang valid: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • Exclusions – Susunan string UTF-8.

    String yang berisi daftar JSON pola glob gaya Unix untuk dikecualikan. Misalnya, “[\" **.pdf\ "]” mengecualikan semua file PDF.

  • GroupSize — String UTF-8, yang cocok dengan Custom string pattern #59.

    Ukuran kelompok target dalam byte. Default-nya dihitung berdasarkan ukuran input data dan ukuran klaster Anda. Ketika ada kurang dari 50.000 file input, "groupFiles" harus diatur ke "inPartition" agar ini berlaku.

  • GroupFiles — String UTF-8, yang cocok dengan Custom string pattern #59.

    Pengelompokan file diaktifkan secara default ketika input berisi lebih dari 50.000 file. Untuk mengaktifkan pengelompokan dengan kurang dari 50.000 file, atur parameter ini ke “InPartition”. Untuk menonaktifkan pengelompokan dalam grup ketika ada lebih dari 50.000 file, tetapkan parameter ini ke "none".

  • Recurse – Boolean.

    Jika disetel ke true, secara rekursif membaca file di semua subdirektori di bawah jalur yang ditentukan.

  • MaxBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini mengontrol durasi dalam milidetik setelah itu daftar s3 cenderung konsisten. File dengan cap waktu modifikasi yang termasuk dalam milidetik MaxBand terakhir dilacak secara khusus saat menggunakan JobBookmarks untuk memperhitungkan konsistensi Amazon S3. Sebagian besar pengguna tidak perlu mengatur opsi ini. Default-nya adalah 900000 milidetik, atau 15 menit.

  • MaxFilesInBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini menentukan jumlah maksimum file untuk menyimpan dari detik MaxBand terakhir. Jika jumlah ini terlampaui, file tambahan akan dilewati dan hanya diproses dalam eksekusi tugas berikutnya.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Parket S3.

Struktur S3 DeltaSource

Menentukan sumber data Delta Lake yang disimpan di. Amazon S3

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama sumber Danau Delta.

  • PathsWajib: Susunan string UTF-8.

    Daftar jalur Amazon S3 untuk dibaca.

  • AdditionalDeltaOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Delta Lake.

Struktur S3 CatalogDeltaSource

Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data. Sumber data harus disimpan di Amazon S3.

Bidang

CatalogDeltaSource struktur

Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data.

Bidang

Struktur S3 HudiSource

Menentukan sumber data Hudi yang disimpan di. Amazon S3

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama sumber Hudi.

  • PathsWajib: Susunan string UTF-8.

    Daftar jalur Amazon S3 untuk dibaca.

  • AdditionalHudiOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Hudi.

Struktur S3 CatalogHudiSource

Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data. Sumber data Hudi harus disimpan di Amazon S3.

Bidang

CatalogHudiSource struktur

Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data.

Bidang

Struktur DBCatalog Sumber Dynamo

Menentukan sumber data DynamoDB dalam Katalog Data. AWS Glue

Bidang

RelationalCatalogSource struktur

Menentukan sumber data database Relasional dalam Katalog AWS Glue Data.

Bidang

JDBCConnectorStruktur target

Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • ConnectionNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectionTableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam target data.

  • ConnectorNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama konektor yang akan digunakan.

  • ConnectionTypeWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jenis koneksi, seperti marketplace.jdbc atau custom.jdbc, menunjuk koneksi ke target data JDBC.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Opsi koneksi tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk target JDBC.

SparkConnectorTarget struktur

Menentukan target yang menggunakan konektor Apache Spark.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • ConnectionNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi untuk konektor Apache Spark.

  • ConnectorNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama konektor Apache Spark.

  • ConnectionTypeWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jenis koneksi, seperti marketplace.spark atau custom.spark, menunjuk koneksi ke penyimpanan data Apache Spark.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Opsi koneksi tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk target percikan kustom.

BasicCatalogTarget struktur

Menentukan target yang menggunakan tabel AWS Glue Data Catalog.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data Anda.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Kunci partisi yang digunakan untuk mendistribusikan data di beberapa partisi atau pecahan berdasarkan kunci tertentu atau set kunci.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Database yang berisi tabel yang ingin Anda gunakan sebagai target. Basis data ini harus sudah ada dalam Katalog Data.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Tabel yang mendefinisikan skema data output Anda. Tabel ini sudah harus ada dalam Katalog Data.

Struktur SQLCatalog Target Saya

Menentukan target yang menggunakan MySQL.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

Struktur Postgre Target SQLCatalog

Menentukan target yang menggunakan Postgres SQL.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

Struktur SQLCatalog Target Oracle

Menentukan target yang menggunakan Oracle SQL.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

SQLServerCatalogTarget Struktur Microsoft

Menentukan target yang menggunakan Microsoft SQL.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

RedshiftTarget struktur

Menentukan target yang menggunakan Amazon Redshift.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

  • RedshiftTmpDir — String UTF-8, yang cocok dengan Custom string pattern #59.

    Jalur Amazon S3 tempat data sementara dapat dipentaskan saat menyalin dari database.

  • TmpDirIAMRole — String UTF-8, yang cocok dengan Custom string pattern #59.

    Peran IAM dengan izin.

  • UpsertRedshiftOptions — Sebuah objek UpsertRedshiftTargetOptions.

    Kumpulan opsi untuk mengonfigurasi operasi upsert saat menulis ke target Redshift.

AmazonRedshiftTarget struktur

Menentukan target Amazon Redshift.

Bidang
  • Name — String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target Amazon Redshift.

  • Data — Sebuah objek AmazonRedshiftNodeData.

    Menentukan data node target Amazon Redshift.

  • Inputs— Array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

UpsertRedshiftTargetOptions struktur

Opsi untuk mengonfigurasi operasi upsert saat menulis ke target Redshift.

Bidang
  • TableLocation — String UTF-8, yang cocok dengan Custom string pattern #59.

    Lokasi fisik tabel Redshift.

  • ConnectionName — String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama koneksi yang digunakan untuk menulis ke Redshift.

  • UpsertKeys – Susunan string UTF-8.

    Kunci yang digunakan untuk menentukan apakah akan melakukan pembaruan atau menyisipkan.

Struktur S3 CatalogTarget

Menentukan target data yang menulis ke Amazon S3 menggunakan Katalog Data AWS Glue .

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 GlueParquetTarget

Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • PathWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Satu jalur Amazon S3 untuk menulis.

  • Compression – String UTF-8 (nilai yang valid: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

CatalogSchemaChangePolicy struktur

Kebijakan yang menentukan perilaku update untuk crawler.

Bidang
  • EnableUpdateCatalog – Boolean.

    Apakah akan menggunakan perilaku pembaruan yang ditentukan saat crawler menemukan skema yang diubah.

  • UpdateBehavior – String UTF-8 (nilai yang valid: UPDATE_IN_DATABASE | LOG).

    Perilaku pembaruan ketika crawler menemukan skema yang berubah.

Struktur S3 DirectTarget

Menentukan target data yang menulis ke Amazon S3.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • PathWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Satu jalur Amazon S3 untuk menulis.

  • Compression — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • FormatWajib: String UTF-8 (nilai yang valid: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Menentukan format output data untuk target.

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 HudiCatalogTarget

Menentukan target yang menulis ke sumber data Hudi di Katalog AWS Glue Data.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • AdditionalOptionsWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 HudiDirectTarget

Menentukan target yang menulis ke sumber data Hudi di. Amazon S3

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PathWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jalur Amazon S3 dari sumber data Hudi Anda untuk menulis.

  • CompressionWajib: String UTF-8 (nilai yang valid: gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • FormatWajib: String UTF-8 (nilai yang valid: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Menentukan format output data untuk target.

  • AdditionalOptionsWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 DeltaCatalogTarget

Menentukan target yang menulis ke sumber data Delta Lake di Katalog AWS Glue Data.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 DeltaDirectTarget

Menentukan target yang menulis ke sumber data Delta Lake di. Amazon S3

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • PathWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jalur Amazon S3 dari sumber data Delta Lake Anda untuk menulis.

  • CompressionWajib: String UTF-8 (nilai yang valid: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • FormatWajib: String UTF-8 (nilai yang valid: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Menentukan format output data untuk target.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

DirectSchemaChangePolicy struktur

Kebijakan yang menentukan perilaku update untuk crawler.

Bidang
  • EnableUpdateCatalog – Boolean.

    Apakah akan menggunakan perilaku pembaruan yang ditentukan saat crawler menemukan skema yang diubah.

  • UpdateBehavior – String UTF-8 (nilai yang valid: UPDATE_IN_DATABASE | LOG).

    Perilaku pembaruan ketika crawler menemukan skema yang berubah.

  • Table — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan tabel dalam database yang berlaku kebijakan perubahan skema.

  • Database — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan database yang berlaku untuk kebijakan perubahan skema.

ApplyMapping struktur

Menentukan transformasi yang memetakan kunci properti data dalam sumber data ke kunci properti data dalam target data. Anda dapat mengganti nama kunci, memodifikasi tipe data untuk kunci, dan memilih kunci mana yang akan dibuang dari set data.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • MappingWajib: Susunan objek Pemetaan.

    Menentukan pemetaan kunci properti data dalam sumber data untuk kunci properti data dalam target data.

Struktur pemetaan

Menentukan pemetaan kunci properti data.

Bidang
  • ToKey — String UTF-8, yang cocok dengan Custom string pattern #59.

    Setelah menerapkan pemetaan, apa nama kolom seharusnya. Bisa sama denganFromPath.

  • FromPath – Susunan string UTF-8.

    Tabel atau kolom yang akan dimodifikasi.

  • FromType — String UTF-8, yang cocok dengan Custom string pattern #59.

    Jenis data yang akan dimodifikasi.

  • ToType — String UTF-8, yang cocok dengan Custom string pattern #59.

    Tipe data yang akan dimodifikasi untuk data.

  • Dropped – Boolean.

    Jika benar, maka kolom dihapus.

  • Children – Susunan objek Pemetaan.

    Hanya berlaku untuk struktur data bersarang. Jika Anda ingin mengubah struktur induk, tetapi juga salah satu anaknya, Anda dapat mengisi strucutre data ini. Hal ini jugaMapping, tetapi FromPath akan menjadi induk FromPath ditambah FromPath dari struktur ini.

    Untuk bagian anak-anak, misalkan Anda memiliki struktur:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    Anda dapat menentukan Mapping yang terlihat seperti:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields struktur

Menentukan transformasi yang memilih kunci properti data yang ingin Anda simpan.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • PathsWajib: Susunan string UTF-8.

    Sebuah jalur JSON ke variabel dalam struktur data.

DropFields struktur

Menentukan transformasi yang memilih kunci properti data yang ingin Anda drop.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • PathsWajib: Susunan string UTF-8.

    Sebuah jalur JSON ke variabel dalam struktur data.

RenameField struktur

Menentukan transformasi yang mengganti nama kunci properti data tunggal.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • SourcePathWajib: Susunan string UTF-8.

    Sebuah jalur JSON ke variabel dalam struktur data untuk sumber data.

  • TargetPathWajib: Susunan string UTF-8.

    Sebuah jalur JSON ke variabel dalam struktur data untuk data target.

Struktur keran

Menentukan transformasi yang menulis sampel data ke bucket Amazon S3.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • PathWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Jalur di Amazon S3 tempat transformasi akan menulis subset catatan dari kumpulan data ke file JSON di bucket Amazon S3.

  • Topk— Angka (bilangan bulat), tidak lebih dari 100.

    Menentukan sejumlah catatan untuk menulis mulai dari awal dataset.

  • Prob— Jumlah (ganda), tidak lebih dari 1.

    Probabilitas (nilai desimal dengan nilai maksimum 1) untuk memilih catatan yang diberikan. Nilai 1 menunjukkan bahwa setiap baris yang dibaca dari kumpulan data harus dimasukkan dalam output sampel.

Bergabunglah dengan struktur

Menentukan transformasi yang menggabungkan dua dataset menjadi satu dataset menggunakan frase perbandingan pada kunci properti data tertentu. Anda dapat menggunakan join bagian dalam, luar, kiri, kanan, kiri semi, dan lawan kiri.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 2 atau lebih dari 2 string.

    Input data diidentifikasi oleh nama node mereka.

  • JoinType- Diperlukan: UTF-8 string (nilai valid: equijoin="EQUIJOIN" | | left="LEFT" | right="RIGHT" outer="OUTER" leftsemi="LEFT_SEMI" |leftanti="LEFT_ANTI").

    Menentukan jenis bergabung yang akan dilakukan pada dataset.

  • ColumnsDiperlukan: Sebuah array JoinColumn objek, tidak kurang dari 2 atau lebih dari 2 struktur.

    Daftar dua kolom yang akan digabungkan.

JoinColumn struktur

Menentukan kolom yang akan bergabung.

Bidang
  • FromWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Kolom yang akan bergabung.

  • KeysWajib: Susunan string UTF-8.

    Kunci kolom yang akan digabungkan.

SplitFields struktur

Menentukan transformasi yang membagi kunci properti data menjadi dua. DynamicFrames Outputnya adalah kumpulanDynamicFrames: satu dengan kunci properti data yang dipilih, dan satu dengan kunci properti data yang tersisa.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • PathsWajib: Susunan string UTF-8.

    Sebuah jalur JSON ke variabel dalam struktur data.

SelectFromCollection struktur

Menentukan transformasi yang memilih salah satu DynamicFrame dari koleksi. DynamicFrames Outputnya adalah yang dipilih DynamicFrame

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • IndexWajib: Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Indeks DynamicFrame untuk yang akan dipilih.

FillMissingValues struktur

Menentukan transformasi yang menempatkan catatan dalam dataset yang memiliki nilai hilang dan menambahkan bidang baru dengan nilai ditentukan oleh imputasi. Kumpulan data input digunakan untuk melatih model pembelajaran mesin yang menentukan nilai yang hilang seharusnya.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • ImputedPathWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Sebuah jalur JSON ke variabel dalam struktur data untuk dataset yang diperhitungkan.

  • FilledPath — String UTF-8, yang cocok dengan Custom string pattern #59.

    Sebuah jalur JSON ke variabel dalam struktur data untuk dataset yang diisi.

Struktur filter

Menentukan transformasi yang membagi dataset menjadi dua, berdasarkan kondisi filter.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • LogicalOperatorWajib: String UTF-8 (nilai yang valid: AND | OR).

    Operator digunakan untuk memfilter baris dengan membandingkan nilai kunci dengan nilai yang ditentukan.

  • FiltersWajib: Susunan objek FilterExpression.

    Menentukan ekspresi filter.

FilterExpression struktur

Menentukan ekspresi filter.

Bidang
  • OperationWajib: String UTF-8 (nilai yang valid: EQ | LT | GT | LTE | GTE | REGEX | ISNULL).

    Jenis operasi yang harus dilakukan dalam ekspresi.

  • Negated – Boolean.

    Apakah ekspresi itu akan dinegasikan.

  • ValuesWajib: Susunan objek FilterValue.

    Daftar nilai filter.

FilterValue struktur

Merupakan entri tunggal dalam daftar nilai untuk aFilterExpression.

Bidang
  • TypeWajib: String UTF-8 (nilai yang valid: COLUMNEXTRACTED | CONSTANT).

    Jenis nilai filter.

  • ValueWajib: Susunan string UTF-8.

    Nilai yang akan dikaitkan.

CustomCode struktur

Menentukan transformasi yang menggunakan kode kustom yang Anda berikan untuk melakukan transformasi data. Outputnya adalah kumpulan DynamicFrames.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsWajib: Susunan string UTF-8, setidaknya 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • CodeWajib: String UTF-8, yang cocok dengan Custom string pattern #52.

    Kode kustom yang digunakan untuk melakukan transformasi data.

  • ClassNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama didefinisikan untuk kelas node kode kustom.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk mengubah kode kustom.

Struktur SparkSQL

Menentukan transformasi di mana Anda memasukkan query SQL menggunakan sintaks Spark SQL untuk mengubah data. Outputnya adalah satu DynamicFrame.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsWajib: Susunan string UTF-8, setidaknya 1 string.

    Input data diidentifikasi oleh nama node mereka. Anda dapat mengaitkan nama tabel dengan setiap node input untuk digunakan dalam query SQL. Nama yang Anda pilih harus memenuhi batasan penamaan Spark SQL.

  • SqlQueryWajib: String UTF-8, yang cocok dengan Custom string pattern #60.

    Kueri SQL yang harus menggunakan sintaks Spark SQL dan mengembalikan satu set data.

  • SqlAliasesWajib: Susunan objek SqlAlias.

    Daftar alias. Sebuah alias memungkinkan Anda untuk menentukan nama apa yang akan digunakan dalam SQL untuk input yang diberikan. Misalnya, Anda memiliki sumber data bernama "”. MyDataSource Jika Anda menentukan From sebagai MyDataSource, dan Alias as SqlName, maka di SQL Anda dapat melakukan:

    select * from SqlName

    dan itu mendapat data dari MyDataSource.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk transformasi SparkSQL.

SqlAlias struktur

Merupakan entri tunggal dalam daftar nilai untukSqlAliases.

Bidang
  • FromWajib: String UTF-8, yang cocok dengan Custom string pattern #58.

    Sebuah tabel, atau kolom dalam tabel.

  • AliasWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama sementara yang diberikan ke tabel, atau kolom dalam tabel.

DropNullFields struktur

Menentukan transformasi yang menghapus kolom dari dataset jika semua nilai dalam kolom adalah 'null'. Secara default, AWS Glue Studio akan mengenali objek null, tetapi beberapa nilai seperti string kosong, string yang “null”, -1 integer atau placeholder lain seperti nol, tidak secara otomatis dikenali sebagai nol.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • NullCheckBoxList — Sebuah objek NullCheckBoxList.

    Struktur yang mewakili apakah nilai-nilai tertentu diakui sebagai nilai nol untuk dihapus.

  • NullTextList — Susunan objek NullValueField, tidak lebih dari 50 struktur.

    Struktur yang menentukan daftar NullValueField struktur yang mewakili nilai null kustom seperti nol atau nilai lain yang digunakan sebagai placeholder null yang unik untuk dataset.

    DropNullFieldsTransformasi menghapus nilai null khusus hanya jika nilai placeholder null dan tipe data cocok dengan data.

NullCheckBoxList struktur

Merupakan apakah nilai-nilai tertentu diakui sebagai nilai nol untuk dihapus.

Bidang
  • IsEmpty – Boolean.

    Menentukan bahwa string kosong dianggap sebagai nilai null.

  • IsNullString – Boolean.

    Menentukan bahwa nilai yang mengeja kata 'null' dianggap sebagai nilai null.

  • IsNegOne – Boolean.

    Menentukan bahwa nilai integer -1 dianggap sebagai nilai null.

NullValueField struktur

Merupakan nilai null kustom seperti nol atau nilai lain yang digunakan sebagai placeholder null yang unik untuk kumpulan data.

Bidang

Struktur tipe data

Struktur yang mewakili tipe data dari nilai.

Bidang

Gabungkan struktur

Menentukan transformasi yang menggabungkan DynamicFrame dengan pementasan DynamicFrame berdasarkan kunci utama yang ditentukan untuk mengidentifikasi catatan. Catatan duplikat (catatan dengan kunci primer yang sama) tidak di-deduplikasi.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 2 atau lebih dari 2 string.

    Input data diidentifikasi oleh nama node mereka.

  • SourceWajib: String UTF-8, yang cocok dengan Custom string pattern #58.

    Sumber DynamicFrame yang akan digabung dengan DynamicFrame pementasan.

  • PrimaryKeysWajib: Susunan string UTF-8.

    Daftar bidang kunci utama untuk mencocokkan catatan dari sumber dan pementasan frame dinamis.

Struktur serikat

Menentukan transformasi yang menggabungkan baris dari dua atau lebih dataset menjadi hasil tunggal.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 2 atau lebih dari 2 string.

    Input ID node ke transformasi.

  • UnionTypeWajib: String UTF-8 (nilai yang valid: ALL | DISTINCT).

    Menunjukkan jenis transformasi Union.

    Tentukan ALL untuk menggabungkan semua baris dari sumber data ke hasil DynamicFrame. Serikat yang dihasilkan tidak menghapus baris duplikat.

    Tentukan DISTINCT untuk menghapus baris duplikat dalam hasil DynamicFrame.

PIIDetection struktur

Menentukan transformasi yang mengidentifikasi, menghapus atau menutupi data PII.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input ID node ke transformasi.

  • PiiTypeWajib: String UTF-8 (nilai yang valid: RowAudit | RowMasking | ColumnAudit | ColumnMasking).

    Menunjukkan jenis PIIDetection transformasi.

  • EntityTypesToDetectWajib: Susunan string UTF-8.

    Menunjukkan jenis entitas yang akan diidentifikasi oleh PIIDetection transformasi sebagai data PII.

    Entitas tipe PII meliputi: PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER, CREDIT_CARD, USA_NATIONAL_PROVIDER_IDENTIFIER, USA_DEA_NUMBER, USA_DRIVING_LICENSE

  • OutputColumnName — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menunjukkan nama kolom keluaran yang akan berisi jenis entitas apa pun yang terdeteksi di baris itu.

  • SampleFraction— Jumlah (ganda), tidak lebih dari 1.

    Menunjukkan fraksi data yang akan diambil sampel saat memindai entitas PII.

  • ThresholdFraction— Jumlah (ganda), tidak lebih dari 1.

    Menunjukkan fraksi data yang harus dipenuhi agar kolom diidentifikasi sebagai data PII.

  • MaskValue— String UTF-8, panjangnya tidak lebih dari 256 byte, cocok dengan file. Custom string pattern #56

    Menunjukkan nilai yang akan menggantikan entitas yang terdeteksi.

Struktur agregat

Menentukan transformasi yang mengelompokkan baris dengan bidang yang dipilih dan menghitung nilai agregat dengan fungsi tertentu.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Menentukan bidang dan baris untuk digunakan sebagai input untuk transformasi agregat.

  • GroupsWajib: Susunan string UTF-8.

    Menentukan bidang untuk kelompok oleh.

  • AggsDiperlukan: Sebuah array AggregateOperation objek, tidak kurang dari 1 atau lebih dari 30 struktur.

    Menentukan fungsi agregat yang akan dilakukan pada bidang tertentu.

DropDuplicates struktur

Menentukan transformasi yang menghapus baris data berulang dari kumpulan data.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • Columns – Susunan string UTF-8.

    Nama kolom yang akan digabungkan atau dihapus jika diulang.

GovernedCatalogTarget struktur

Menentukan target data yang menulis ke Amazon S3 menggunakan Katalog Data AWS Glue .

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys – Susunan string UTF-8.

    Menentukan partisi asli menggunakan urutan kunci.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama tabel dalam database untuk menulis ke.

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Nama database untuk menulis.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku pembaruan untuk katalog yang diatur.

GovernedCatalogSource struktur

Menentukan penyimpanan data dalam Katalog AWS Glue Data diatur.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama penyimpanan data

  • DatabaseWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Database untuk dibaca.

  • TableWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Tabel database untuk dibaca.

  • PartitionPredicate — String UTF-8, yang cocok dengan Custom string pattern #59.

    Partisi yang memenuhi predikat ini dihapus. File dalam periode penyimpanan dalam partisi ini tidak dihapus. Diatur ke "" — kosong secara default.

  • AdditionalOptions — Sebuah objek S3 SourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

AggregateOperation struktur

Menentukan set parameter yang diperlukan untuk melakukan agregasi dalam transformasi agregat.

Bidang
  • ColumnWajib: Susunan string UTF-8.

    Menentukan kolom pada kumpulan data di mana fungsi agregasi akan diterapkan.

  • AggFuncDiperlukan: UTF-8 string (nilai valid: avg | | countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | | stddev_pop | sum sumDistinct var_samp |var_pop).

    Menentukan fungsi agregasi untuk menerapkan.

    Fungsi agregasi yang mungkin meliputi: avg countDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, sumDistinct, var_samp, var_pop

GlueSchema struktur

Menentukan skema yang ditetapkan pengguna ketika skema tidak dapat ditentukan oleh. AWS Glue

Bidang

GlueStudioSchemaColumn struktur

Menentukan satu kolom dalam definisi AWS Glue skema.

Bidang
  • Name- Wajib: UTF-8 string, tidak lebih dari 1024 byte panjang, cocok dengan. Single-line string pattern

    Nama kolom dalam skema AWS Glue Studio.

  • Type — String UTF-8, sepanjang tidak lebih dari 131072, yang cocok dengan Single-line string pattern.

    Jenis sarang untuk kolom ini dalam skema AWS Glue Studio.

GlueStudioColumn struktur

Menentukan satu kolom di AWS Glue Studio.

Bidang
  • KeyWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Kunci kolom di AWS Glue Studio.

  • FullPathWajib: Susunan string UTF-8.

    TThe URL lengkap kolom di AWS Glue Studio.

  • TypeDiperlukan: UTF-8 string (nilai valid: array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" smallint="SMALLINT" smallint array="SMALLINT_ARRAY"| string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" |unknown array="UNKNOWN_ARRAY").

    TThe jenis kolom di AWS Glue Studio.

  • Children— Sebuah array dari struktur.

    TThe anak-anak dari kolom induk di AWS Glue Studio.

DynamicTransform struktur

Menentukan set parameter yang diperlukan untuk melakukan transformasi dinamis.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan nama transformasi dinamis.

  • TransformNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan nama transformasi dinamis seperti yang muncul di editor visual AWS Glue Studio.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Menentukan input untuk transformasi dinamis yang diperlukan.

  • Parameters – Susunan objek TransformConfigParameter.

    Menentukan parameter transformasi dinamis.

  • FunctionNameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan nama fungsi transformasi dinamis.

  • PathWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan jalur sumber transformasi dinamis dan file konfigurasi.

  • Version — String UTF-8, yang cocok dengan Custom string pattern #59.

    Bidang ini tidak digunakan dan akan usang dalam rilis future.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk transformasi dinamis.

TransformConfigParameter struktur

Menentukan parameter dalam file konfigurasi dari transformasi dinamis.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan nama parameter dalam file konfigurasi dari transformasi dinamis.

  • TypeWajib: String UTF-8 (nilai yang valid: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Menentukan jenis parameter dalam file konfigurasi dari transformasi dinamis.

  • ValidationRule — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan aturan validasi dalam file konfigurasi dari transformasi dinamis.

  • ValidationMessage — String UTF-8, yang cocok dengan Custom string pattern #59.

    Menentukan pesan validasi dalam file konfigurasi dari transformasi dinamis.

  • Value – Susunan string UTF-8.

    Menentukan nilai parameter dalam file konfigurasi dari transformasi dinamis.

  • ListType – String UTF-8 (nilai yang valid: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Menentukan jenis daftar parameter dalam file konfigurasi dari transformasi dinamis.

  • IsOptional – Boolean.

    Menentukan apakah parameter opsional atau tidak dalam file konfigurasi dari transformasi dinamis.

EvaluateDataQuality struktur

Menentukan kriteria evaluasi kualitas data Anda.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama evaluasi kualitas data.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Input dari evaluasi kualitas data Anda.

  • Ruleset- Wajib: UTF-8 string, tidak kurang dari 1 atau lebih dari 65536 byte panjang, cocok dengan. Custom string pattern #57

    Aturan untuk evaluasi kualitas data Anda.

  • Output – String UTF-8 (nilai yang valid: PrimaryInput | EvaluationResults).

    Output dari evaluasi kualitas data Anda.

  • PublishingOptions — Sebuah objek DQResultsPublishingOptions.

    Opsi untuk mengonfigurasi bagaimana hasil Anda dipublikasikan.

  • StopJobOnFailureOptions — Sebuah objek DQStopJobOnFailureOptions.

    Opsi untuk mengonfigurasi bagaimana pekerjaan Anda akan berhenti jika evaluasi kualitas data Anda gagal.

DQResultsPublishingOptions struktur

Opsi untuk mengonfigurasi bagaimana hasil evaluasi kualitas data Anda dipublikasikan.

Bidang
  • EvaluationContext — String UTF-8, yang cocok dengan Custom string pattern #58.

    Konteks evaluasi.

  • ResultsS3Prefix — String UTF-8, yang cocok dengan Custom string pattern #59.

    Awalan Amazon S3 diawali dengan hasil.

  • CloudWatchMetricsEnabled – Boolean.

    Aktifkan metrik untuk hasil kualitas data Anda.

  • ResultsPublishingEnabled – Boolean.

    Aktifkan penerbitan untuk hasil kualitas data Anda.

DQStopJobOnFailureOptions struktur

Opsi untuk mengonfigurasi bagaimana pekerjaan Anda akan berhenti jika evaluasi kualitas data Anda gagal.

Bidang
  • StopJobOnFailureTiming – String UTF-8 (nilai yang valid: Immediate | AfterDataLoad).

    Kapan harus berhenti bekerja jika evaluasi kualitas data Anda gagal. Pilihannya Segera atau AfterDataLoad.

EvaluateDataQualityMultiFrame struktur

Menentukan kriteria evaluasi kualitas data Anda.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama evaluasi kualitas data.

  • InputsWajib: Susunan string UTF-8, setidaknya 1 string.

    Input dari evaluasi kualitas data Anda. Input pertama dalam daftar ini adalah sumber data primer.

  • AdditionalDataSources – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #61

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Alias semua sumber data kecuali primer.

  • Ruleset- Wajib: UTF-8 string, tidak kurang dari 1 atau lebih dari 65536 byte panjang, cocok dengan. Custom string pattern #57

    Aturan untuk evaluasi kualitas data Anda.

  • PublishingOptions — Sebuah objek DQResultsPublishingOptions.

    Opsi untuk mengonfigurasi bagaimana hasil Anda dipublikasikan.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8 (nilai valid: performanceTuning.caching="CacheOption" |observations.scope="ObservationsOption").

    Setiap nilai adalah string UTF-8.

    Opsi untuk mengonfigurasi perilaku runtime transformasi.

  • StopJobOnFailureOptions — Sebuah objek DQStopJobOnFailureOptions.

    Opsi untuk mengonfigurasi bagaimana pekerjaan Anda akan berhenti jika evaluasi kualitas data Anda gagal.

Struktur resep

Node AWS Glue Studio yang menggunakan AWS Glue DataBrew resep dalam AWS Glue pekerjaan.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node AWS Glue Studio.

  • InputsDiperlukan: Sebuah array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke node resep, diidentifikasi oleh id.

  • RecipeReference — Sebuah objek RecipeReference.

    Referensi ke DataBrew resep yang digunakan oleh node.

  • RecipeSteps – Susunan objek RecipeStep.

    Mengubah langkah-langkah yang digunakan dalam simpul resep.

RecipeReference struktur

Referensi ke AWS Glue DataBrew resep.

Bidang
  • RecipeArnWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    ARN resepnya. DataBrew

  • RecipeVersion- Diperlukan: string UTF-8, panjangnya tidak kurang dari 1 atau lebih dari 16 byte.

    DataBrew Resepnya. RecipeVersion

SnowflakeNodeData struktur

Menentukan konfigurasi untuk node Snowflake di Studio. AWS Glue

Bidang
  • SourceType — String UTF-8, yang cocok dengan Custom string pattern #58.

    Menentukan bagaimana data diambil ditentukan. Nilai-nilai yang valid: "table", "query".

  • Connection — Sebuah objek Opsi.

    Menentukan Koneksi Katalog AWS Glue Data ke titik akhir Snowflake.

  • Schema – String UTF-8.

    Menentukan skema database Snowflake untuk node Anda untuk digunakan.

  • Table – String UTF-8.

    Menentukan tabel Snowflake untuk node Anda untuk digunakan.

  • Database – String UTF-8.

    Menentukan database Snowflake untuk node Anda untuk digunakan.

  • TempDir — String UTF-8, yang cocok dengan Custom string pattern #59.

    Saat ini tidak digunakan.

  • IamRole — Sebuah objek Opsi.

    Saat ini tidak digunakan.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF-8, cocok dengan. Custom string pattern #59

    Menentukan opsi tambahan diteruskan ke konektor Snowflake. Jika opsi ditentukan di tempat lain di node ini, ini akan diutamakan.

  • SampleQuery – String UTF-8.

    String SQL digunakan untuk mengambil data dengan sourcetype. query

  • PreAction – String UTF-8.

    String SQL berjalan sebelum konektor Snowflake melakukan tindakan standarnya.

  • PostAction – String UTF-8.

    String SQL berjalan setelah konektor Snowflake melakukan tindakan standarnya.

  • Action – String UTF-8.

    Menentukan tindakan apa yang harus diambil saat menulis ke tabel dengan data yang sudah ada sebelumnya. Nilai yang valid: append,merge,truncate,drop.

  • Upsert – Boolean.

    Digunakan saat Actionappend. Menentukan perilaku resolusi ketika baris sudah ada. Jika benar, baris yang sudah ada sebelumnya akan diperbarui. Jika salah, baris-baris itu akan dimasukkan.

  • MergeAction — String UTF-8, yang cocok dengan Custom string pattern #58.

    Menentukan tindakan gabungan. Nilai-nilai yang valid: simple, custom. Jika sederhana, perilaku penggabungan didefinisikan oleh MergeWhenMatched dan MergeWhenNotMatched. Jika kustom, ditentukan olehMergeClause.

  • MergeWhenMatched — String UTF-8, yang cocok dengan Custom string pattern #58.

    Menentukan cara menyelesaikan catatan yang cocok dengan data yang sudah ada sebelumnya saat menggabungkan. Nilai-nilai yang valid: update, delete.

  • MergeWhenNotMatched — String UTF-8, yang cocok dengan Custom string pattern #58.

    Menentukan cara memproses catatan yang tidak cocok dengan data yang sudah ada sebelumnya saat menggabungkan. Nilai-nilai yang valid: insert, none.

  • MergeClause – String UTF-8.

    Pernyataan SQL yang menentukan perilaku gabungan kustom.

  • StagingTable – String UTF-8.

    Nama tabel pementasan yang digunakan saat melakukan merge atau meningkatkan tindakan. append Data ditulis ke tabel ini, kemudian dipindahkan ke table oleh postaction yang dihasilkan.

  • SelectedColumns – Susunan objek Opsi.

    Menentukan kolom digabungkan untuk mengidentifikasi catatan saat mendeteksi kecocokan untuk penggabungan dan upserts. Daftar struktur denganvalue, label dan description kunci. Setiap struktur menggambarkan kolom.

  • AutoPushdown – Boolean.

    Menentukan apakah permintaan otomatis pushdown diaktifkan. Jika pushdown diaktifkan, maka ketika kueri dijalankan di Spark, jika bagian dari kueri dapat “didorong ke bawah” ke server Snowflake, itu didorong ke bawah. Ini meningkatkan kinerja beberapa kueri.

  • TableSchema – Susunan objek Opsi.

    Secara manual mendefinisikan skema target untuk node. Daftar struktur denganvalue, label dan description kunci. Setiap struktur mendefinisikan kolom.

SnowflakeSource struktur

Menentukan sumber data Snowflake.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama sumber data Snowflake.

  • DataWajib: Sebuah objek SnowflakeNodeData.

    Konfigurasi untuk sumber data Snowflake.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema yang ditentukan pengguna untuk data output Anda.

SnowflakeTarget struktur

Menentukan target Snowflake.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama target Snowflake.

  • DataWajib: Sebuah objek SnowflakeNodeData.

    Menentukan data dari node target Snowflake.

  • Inputs— Array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

ConnectorDataSource struktur

Menentukan sumber yang dihasilkan dengan pilihan koneksi standar.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node sumber ini.

  • ConnectionTypeWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    ItuconnectionType, sebagaimana disediakan untuk AWS Glue perpustakaan yang mendasarinya. Jenis node ini mendukung jenis koneksi berikut:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8.

    Setiap nilai adalah string UTF-8.

    Peta yang menentukan opsi koneksi untuk node. Anda dapat menemukan opsi koneksi standar untuk jenis koneksi yang sesuai di bagian Parameter koneksi AWS Glue dokumentasi.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber ini.

ConnectorDataTarget struktur

Menentukan target yang dihasilkan dengan pilihan koneksi standar.

Bidang
  • NameWajib: String UTF-8, yang cocok dengan Custom string pattern #61.

    Nama node target ini.

  • ConnectionTypeWajib: String UTF-8, yang cocok dengan Custom string pattern #59.

    ItuconnectionType, sebagaimana disediakan untuk AWS Glue perpustakaan yang mendasarinya. Jenis node ini mendukung jenis koneksi berikut:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF-8.

    Setiap nilai adalah string UTF-8.

    Peta yang menentukan opsi koneksi untuk node. Anda dapat menemukan opsi koneksi standar untuk jenis koneksi yang sesuai di bagian Parameter koneksi AWS Glue dokumentasi.

  • Inputs— Array string UTF-8, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

RecipeStep struktur

Langkah resep yang digunakan dalam simpul resep persiapan data AWS Glue Studio.

Bidang
  • ActionWajib: Sebuah objek RecipeAction.

    Tindakan transformasi langkah resep.

  • ConditionExpressions – Susunan objek ConditionExpression.

    Ekspresi kondisi untuk langkah resep.

RecipeAction struktur

Tindakan yang didefinisikan dalam simpul resep persiapan data AWS Glue Studio.

Bidang
  • OperationWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 128 byte, yang cocok dengan Custom string pattern #54.

    Pengoperasian tindakan resep.

  • Parameters – Susunan peta pasangan nilai kunci.

    Masing-masing kunci adalah sebuah string UTF-8, dengan panjang tidak kurang dari 1 atau lebih dari 128 byte, yang cocok dengan Custom string pattern #55.

    Setiap nilai adalah string UTF-8, panjangnya tidak kurang dari 1 atau lebih dari 32768 byte.

    Parameter tindakan resep.

ConditionExpression struktur

Ekspresi kondisi didefinisikan dalam simpul resep persiapan data AWS Glue Studio.

Bidang
  • ConditionWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 128 byte, yang cocok dengan Custom string pattern #54.

    Kondisi ekspresi kondisi.

  • Value— String UTF-8, panjangnya tidak lebih dari 1024 byte.

    Nilai ekspresi kondisi.

  • TargetColumn- Diperlukan: string UTF-8, panjangnya tidak kurang dari 1 atau lebih dari 1024 byte.

    Kolom target ekspresi kondisi.