Pekerjaan visual API - AWS Glue
 —  tipe data  —CodeGenConfigurationNodeJDBCConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBCConnectorSourceSparkConnectorSourceCatalogSourceySQLCatalogSumber MostgreSQLCatalogSumber PO racleSQLCatalog SumberM icrosoftSQLServer CatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOpsiS3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceD irectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceD ynamoDBCatalog SumberRelationalCatalogSourceJDBCConnectorTargetSparkConnectorTargetBasicCatalogTargetM ySQLCatalog TargetostgreSQLCatalogTarget PO racleSQLCatalog TargetM icrosoftSQLServer CatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingPemetaanSelectFieldsDropFieldsRenameFieldSpigotJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFilterFilterExpressionFilterValueCustomCodePercikan SQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldJenisDataGabungkanUnionPIIDetectionAgregatDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQResultsPublishingOptionsDQStopJobOnFailureOptionsEvaluateDataQualityMultiFrameResepRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTargetRecipeStepRecipeActionConditionExpression

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pekerjaan visual API

Pekerjaan Visual API memungkinkan Anda untuk membuat pekerjaan integrasi data dengan menggunakan AWS Glue API dari JSON objek yang mewakili konfigurasi visual AWS Glue pekerjaan.

Daftar CodeGenConfigurationNodes disediakan untuk membuat atau memperbarui pekerjaan API untuk mendaftarkan DAG di AWS Glue Studio untuk pekerjaan yang dibuat dan menghasilkan kode terkait.

Jenis data

CodeGenConfigurationNode struktur

CodeGenConfigurationNodemenghitung semua jenis Node yang valid. Satu dan hanya satu variabel anggotanya yang dapat diisi.

Bidang
  • AthenaConnectorSource — Sebuah objek AthenaConnectorSource.

    Menentukan konektor ke sumber data Amazon Athena.

  • JDBCConnectorSource — Sebuah objek JDBCConnectorSource.

    Menentukan konektor ke sumber JDBC data.

  • SparkConnectorSource — Sebuah objek SparkConnectorSource.

    Menentukan konektor ke sumber data Apache Spark.

  • CatalogSource — Sebuah objek CatalogSource.

    Menentukan penyimpanan data dalam Katalog AWS Glue Data.

  • RedshiftSource — Sebuah objek RedshiftSource.

    Menentukan penyimpanan data Amazon Redshift.

  • S3CatalogSource — Sebuah objek S3 CatalogSource.

    Menentukan penyimpanan data Amazon S3 di Katalog Data AWS Glue .

  • S3CsvSource — Sebuah objek S3 CsvSource.

    Menentukan nilai yang dipisahkan perintah (CSV) penyimpanan data yang disimpan di Amazon S3.

  • S3JsonSource — Sebuah objek S3 JsonSource.

    Menentukan penyimpanan JSON data yang disimpan di Amazon S3.

  • S3ParquetSource — Sebuah objek S3 ParquetSource.

    Menentukan penyimpanan data Apache Parquet yang disimpan di Amazon S3.

  • RelationalCatalogSource — Sebuah objek RelationalCatalogSource.

    Menentukan penyimpanan data katalog relasional dalam Katalog AWS Glue Data.

  • DynamoDBCatalogSource — Sebuah objek D ynamoDBCatalog Sumber.

    Menentukan penyimpanan data Dynamo DBC Catalog di Data Catalog. AWS Glue

  • JDBCConnectorTarget — Sebuah objek JDBCConnectorTarget.

    Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

  • SparkConnectorTarget — Sebuah objek SparkConnectorTarget.

    Menentukan target yang menggunakan konektor Apache Spark.

  • CatalogTarget — Sebuah objek BasicCatalogTarget.

    Menentukan target yang menggunakan tabel AWS Glue Data Catalog.

  • RedshiftTarget — Sebuah objek RedshiftTarget.

    Menentukan target yang menggunakan Amazon Redshift.

  • S3CatalogTarget — Sebuah objek S3 CatalogTarget.

    Menentukan target data yang menulis ke Amazon S3 menggunakan Katalog Data AWS Glue .

  • S3GlueParquetTarget — Sebuah objek S3 GlueParquetTarget.

    Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

  • S3DirectTarget — Sebuah objek S3 DirectTarget.

    Menentukan target data yang menulis ke Amazon S3.

  • ApplyMapping — Sebuah objek ApplyMapping.

    Menentukan transformasi yang memetakan kunci properti data dalam sumber data ke kunci properti data dalam target data. Anda dapat mengganti nama kunci, memodifikasi tipe data untuk kunci, dan memilih kunci mana yang akan dibuang dari set data.

  • SelectFields — Sebuah objek SelectFields.

    Menentukan transformasi yang memilih kunci properti data yang ingin Anda simpan.

  • DropFields — Sebuah objek DropFields.

    Menentukan transformasi yang memilih kunci properti data yang ingin Anda drop.

  • RenameField — Sebuah objek RenameField.

    Menentukan transformasi yang mengganti nama kunci properti data tunggal.

  • Spigot — Sebuah objek Spigot.

    Menentukan transformasi yang menulis sampel data ke bucket Amazon S3.

  • Join — Sebuah objek Join.

    Menentukan transformasi yang menggabungkan dua dataset menjadi satu dataset menggunakan frase perbandingan pada kunci properti data tertentu. Anda dapat menggunakan join bagian dalam, luar, kiri, kanan, kiri semi, dan lawan kiri.

  • SplitFields — Sebuah objek SplitFields.

    Menentukan transformasi yang membagi kunci properti data menjadi dua. DynamicFrames Outputnya adalah kumpulanDynamicFrames: satu dengan kunci properti data yang dipilih, dan satu dengan kunci properti data yang tersisa.

  • SelectFromCollection — Sebuah objek SelectFromCollection.

    Menentukan transformasi yang memilih salah satu DynamicFrame dari koleksi. DynamicFrames Outputnya adalah yang dipilih DynamicFrame

  • FillMissingValues — Sebuah objek FillMissingValues.

    Menentukan transformasi yang menempatkan catatan dalam dataset yang memiliki nilai hilang dan menambahkan bidang baru dengan nilai ditentukan oleh imputasi. Kumpulan data input digunakan untuk melatih model pembelajaran mesin yang menentukan nilai yang hilang seharusnya.

  • Filter — Sebuah objek Filter.

    Menentukan transformasi yang membagi dataset menjadi dua, berdasarkan kondisi filter.

  • CustomCode — Sebuah objek CustomCode.

    Menentukan transformasi yang menggunakan kode kustom yang Anda berikan untuk melakukan transformasi data. Outputnya adalah kumpulan DynamicFrames.

  • SparkSQL — Sebuah objek Percikan SQL.

    Menentukan transformasi di mana Anda memasukkan SQL query menggunakan SQL sintaks Spark untuk mengubah data. Outputnya adalah satu DynamicFrame.

  • DirectKinesisSource — Sebuah objek DirectKinesisSource.

    Menentukan sumber data Amazon Kinesis langsung.

  • DirectKafkaSource — Sebuah objek DirectKafkaSource.

    Menentukan toko data Apache Kafka.

  • CatalogKinesisSource — Sebuah objek CatalogKinesisSource.

    Menentukan sumber data Kinesis dalam Katalog Data AWS Glue .

  • CatalogKafkaSource — Sebuah objek CatalogKafkaSource.

    Menentukan penyimpanan data Apache Kafka dalam Katalog Data.

  • DropNullFields — Sebuah objek DropNullFields.

    Menentukan transformasi yang menghapus kolom dari dataset jika semua nilai dalam kolom adalah 'null'. Secara default, AWS Glue Studio akan mengenali objek null, tetapi beberapa nilai seperti string kosong, string yang “null”, -1 integer atau placeholder lain seperti nol, tidak secara otomatis dikenali sebagai nol.

  • Merge — Sebuah objek Gabungkan.

    Menentukan transformasi yang menggabungkan DynamicFrame dengan pementasan DynamicFrame berdasarkan kunci utama yang ditentukan untuk mengidentifikasi catatan. Catatan duplikat (catatan dengan kunci primer yang sama) tidak di-deduplikasi.

  • Union — Sebuah objek Union.

    Menentukan transformasi yang menggabungkan baris dari dua atau lebih dataset menjadi hasil tunggal.

  • PIIDetection — Sebuah objek PIIDetection.

    Menentukan transformasi yang mengidentifikasi, menghapus atau menutupi PII data.

  • Aggregate — Sebuah objek Agregat.

    Menentukan transformasi yang mengelompokkan baris dengan bidang yang dipilih dan menghitung nilai agregat dengan fungsi tertentu.

  • DropDuplicates — Sebuah objek DropDuplicates.

    Menentukan transformasi yang menghapus baris data berulang dari kumpulan data.

  • GovernedCatalogTarget — Sebuah objek GovernedCatalogTarget.

    Menentukan target data yang menulis ke katalog yang diatur.

  • GovernedCatalogSource — Sebuah objek GovernedCatalogSource.

    Menentukan sumber data dalam Katalog Data yang diatur.

  • MicrosoftSQLServerCatalogSource — Sebuah objek M icrosoftSQLServer CatalogSource.

    Menentukan sumber data SQL server Microsoft di Katalog AWS Glue Data.

  • MySQLCatalogSource — Sebuah objek ySQLCatalogSumber M.

    Menentukan sumber SQL data saya di Katalog AWS Glue Data.

  • OracleSQLCatalogSource — Sebuah objek O racleSQLCatalog Sumber.

    Menentukan sumber data Oracle dalam Katalog AWS Glue Data.

  • PostgreSQLCatalogSource — Sebuah objek ostgreSQLCatalogSumber P.

    Menentukan sumber SQL data Postgres dalam Katalog AWS Glue Data.

  • MicrosoftSQLServerCatalogTarget — Sebuah objek M icrosoftSQLServer CatalogTarget.

    Menentukan target yang menggunakan MicrosoftSQL.

  • MySQLCatalogTarget — Sebuah objek M ySQLCatalog Target.

    Menentukan target yang menggunakan MySQL.

  • OracleSQLCatalogTarget — Sebuah objek O racleSQLCatalog Target.

    Menentukan target yang menggunakan SQL Oracle.

  • PostgreSQLCatalogTarget — Sebuah objek ostgreSQLCatalogTarget P.

    Menentukan target yang menggunakan SQL Postgres.

  • DynamicTransform — Sebuah objek DynamicTransform.

    Menentukan transformasi visual kustom yang dibuat oleh pengguna.

  • EvaluateDataQuality — Sebuah objek EvaluateDataQuality.

    Menentukan kriteria evaluasi kualitas data Anda.

  • S3CatalogHudiSource — Sebuah objek S3 CatalogHudiSource.

    Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data. Sumber data harus disimpan di Amazon S3.

  • CatalogHudiSource — Sebuah objek CatalogHudiSource.

    Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data.

  • S3HudiSource — Sebuah objek S3 HudiSource.

    Menentukan sumber data Hudi disimpan di. Amazon S3

  • S3HudiCatalogTarget — Sebuah objek S3 HudiCatalogTarget.

    Menentukan target yang menulis ke sumber data Hudi di Katalog AWS Glue Data.

  • S3HudiDirectTarget — Sebuah objek S3 HudiDirectTarget.

    Menentukan target yang menulis ke sumber data Hudi di. Amazon S3

  • S3CatalogDeltaSource — Sebuah objek S3 CatalogDeltaSource.

    Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data. Sumber data harus disimpan di Amazon S3.

  • CatalogDeltaSource — Sebuah objek CatalogDeltaSource.

    Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data.

  • S3DeltaSource — Sebuah objek S3 DeltaSource.

    Menentukan sumber data Delta Lake yang disimpan di. Amazon S3

  • S3DeltaCatalogTarget — Sebuah objek S3 DeltaCatalogTarget.

    Menentukan target yang menulis ke sumber data Delta Lake di Katalog AWS Glue Data.

  • S3DeltaDirectTarget — Sebuah objek S3 DeltaDirectTarget.

    Menentukan target yang menulis ke sumber data Delta Lake di. Amazon S3

  • AmazonRedshiftSource — Sebuah objek AmazonRedshiftSource.

    Menentukan target yang menulis ke sumber data di Amazon Redshift.

  • AmazonRedshiftTarget — Sebuah objek AmazonRedshiftTarget.

    Menentukan target yang menulis ke target data di Amazon Redshift.

  • EvaluateDataQualityMultiFrame — Sebuah objek EvaluateDataQualityMultiFrame.

    Menentukan kriteria evaluasi kualitas data Anda. Memungkinkan beberapa input data dan mengembalikan koleksi Dynamic Frames.

  • Recipe — Sebuah objek Resep.

    Menentukan simpul AWS Glue DataBrew resep.

  • SnowflakeSource — Sebuah objek SnowflakeSource.

    Menentukan sumber data Snowflake.

  • SnowflakeTarget — Sebuah objek SnowflakeTarget.

    Menentukan target yang menulis ke sumber data Snowflake.

  • ConnectorDataSource — Sebuah objek ConnectorDataSource.

    Menentukan sumber yang dihasilkan dengan pilihan koneksi standar.

  • ConnectorDataTarget — Sebuah objek ConnectorDataTarget.

    Menentukan target yang dihasilkan dengan pilihan koneksi standar.

JDBCConnectorOptionsstruktur

Opsi koneksi tambahan untuk konektor.

Bidang
  • FilterPredicate— UTF -8 string, cocok dengan. Custom string pattern #59

    Klausul kondisi tambahan untuk memfilter data dari sumber. Sebagai contoh:

    BillingCity='Mountain View'

    Saat menggunakan kueri alih-alih nama tabel, Anda harus memvalidasi bahwa kueri berfungsi dengan yang ditentukanfilterPredicate.

  • PartitionColumn— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama kolom integer yang digunakan untuk partisi. Opsi ini bekerja hanya ketika ia disertakan dengan lowerBound, upperBound, dan numPartitions. Opsi ini bekerja dengan cara yang sama seperti pada SQL JDBC pembaca Spark.

  • LowerBound— Jumlah (panjang), tidak lebih dari Tidak ada.

    Nilai minimum partitionColumn yang digunakan untuk memutuskan langkah partisi.

  • UpperBound— Jumlah (panjang), tidak lebih dari Tidak ada.

    Nilai maksimum partitionColumn yang digunakan untuk memutuskan langkah partisi.

  • NumPartitions— Jumlah (panjang), tidak lebih dari Tidak ada.

    Jumlah partisi. Nilai ini, bersama dengan lowerBound (inklusif) dan upperBound (eksklusif), membentuk langkah partisi untuk ekspresi klausul WHERE yang dihasilkan yang digunakan untuk membagi partitionColumn.

  • JobBookmarkKeys— Sebuah array dari UTF -8 string.

    Nama kunci bookmark pekerjaan untuk mengurutkan.

  • JobBookmarkKeysSortOrder— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan urutan urutan naik atau turun.

  • DataTypeMapping – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8 (nilai yang valid: ARRAY BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP TIMESTAMP_WITH_TIMEZONE| TINYINT | VARBINARY |VARCHAR).

    Setiap nilai adalah string UTF -8 (nilai yang valid: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE SHORT |DOUBLE).

    Pemetaan tipe data kustom yang membangun pemetaan dari tipe JDBC data ke tipe data. AWS Glue Misalnya, opsi "dataTypeMapping":{"FLOAT":"STRING"} memetakan bidang data JDBC tipe FLOAT ke dalam String tipe Java dengan memanggil ResultSet.getString() metode driver, dan menggunakannya untuk membangun AWS Glue catatan. Objek ResultSet dilaksanakan oleh masing-masing driver, sehingga perilaku bersifat spesifik untuk driver yang Anda gunakan. Lihat dokumentasi untuk JDBC pengemudi Anda untuk memahami bagaimana pengemudi melakukan konversi.

StreamingDataPreviewOptions struktur

Menentukan pilihan yang terkait dengan pratinjau data untuk melihat sampel data Anda.

Bidang
  • PollingTime— Jumlah (panjang), setidaknya 10.

    Waktu polling dalam milidetik.

  • RecordPollingLimit— Jumlah (panjang), setidaknya 1.

    Batas jumlah catatan yang disurvei.

AthenaConnectorSource struktur

Menentukan konektor ke sumber data Amazon Athena.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama dari sumber data.

  • ConnectionName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectorName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama konektor yang membantu mengakses penyimpanan data di Studio. AWS Glue

  • ConnectionType- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jenis koneksi, seperti marketplace.athena atau custom.athena, menunjuk koneksi ke toko data Amazon Athena.

  • ConnectionTable— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel di sumber data.

  • SchemaName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama grup log Cloudwatch untuk dibaca. Misalnya, /aws-glue/jobs/output.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Athena kustom.

JDBCConnectorSourcestruktur

Menentukan konektor ke sumber JDBC data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama dari sumber data.

  • ConnectionName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectorName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama konektor yang membantu mengakses penyimpanan data di Studio. AWS Glue

  • ConnectionType- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jenis koneksi, seperti marketplace.jdbc atau custom.jdbc, menunjuk koneksi ke penyimpanan data. JDBC

  • AdditionalOptions — Sebuah objek JDBCConnectorOptions.

    Opsi koneksi tambahan untuk konektor.

  • ConnectionTable— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel di sumber data.

  • Query— UTF -8 string, cocok dengan. Custom string pattern #60

    Tabel atau SQL kueri untuk mendapatkan data dari. Anda dapat menentukan salah satu dari ConnectionTable atau query, bukan keduanya.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber kustomJDBC.

SparkConnectorSource struktur

Menentukan konektor ke sumber data Apache Spark.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama dari sumber data.

  • ConnectionName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectorName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama konektor yang membantu mengakses penyimpanan data di Studio. AWS Glue

  • ConnectionType- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jenis koneksi, seperti marketplace.spark atau custom.spark, menunjuk koneksi ke penyimpanan data Apache Spark.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Opsi koneksi tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber percikan kustom.

CatalogSource struktur

Menentukan penyimpanan data dalam Katalog AWS Glue Data.

Bidang

Struktur ySQLCatalog sumber M

Menentukan sumber SQL data saya di Katalog AWS Glue Data.

Bidang

P Struktur ostgreSQLCatalog sumber

Menentukan sumber SQL data Postgres dalam Katalog AWS Glue Data.

Bidang

O Struktur racleSQLCatalog sumber

Menentukan sumber data Oracle dalam Katalog AWS Glue Data.

Bidang

icrosoftSQLServerCatalogSource Struktur M

Menentukan sumber data SQL server Microsoft di Katalog AWS Glue Data.

Bidang

CatalogKinesisSource struktur

Menentukan sumber data Kinesis dalam Katalog Data AWS Glue .

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama dari sumber data.

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk dibaca.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk dibaca.

  • StreamingOptions — Sebuah objek KinesisStreamingSourceOptions.

    Opsi tambahan untuk sumber data streaming Kinesis.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Opsi tambahan untuk pratinjau data.

DirectKinesisSource struktur

Menentukan sumber data Amazon Kinesis langsung.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama dari sumber data.

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • StreamingOptions — Sebuah objek KinesisStreamingSourceOptions.

    Opsi tambahan untuk sumber data streaming Kinesis.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Opsi tambahan untuk pratinjau data.

KinesisStreamingSourceOptions struktur

Opsi tambahan untuk sumber data streaming Amazon Kinesis.

Bidang
  • EndpointUrl— UTF -8 string, cocok dengan. Custom string pattern #59

    Titik URL akhir Kinesis.

  • StreamName— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama aliran data Kinesis.

  • Classification— UTF -8 string, cocok dengan. Custom string pattern #59

    Klasifikasi opsional.

  • Delimiter— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan karakter pembatas.

  • StartingPosition— UTF -8 string (nilai valid: latest="LATEST" | | trim_horizon="TRIM_HORIZON" earliest="EARLIEST" |timestamp="TIMESTAMP").

    Posisi awal dalam aliran data Kinesis untuk membaca data dari. Nilai yang mungkin adalah"latest",, "trim_horizon""earliest", atau string stempel waktu dalam UTC format dalam pola yyyy-mm-ddTHH:MM:SSZ (di mana Z mewakili UTC zona waktu offset dengan +/-. Misalnya: “2023-04-04T 08:00:00-04:00 “). Nilai default-nya adalah "latest".

    Catatan: Menggunakan nilai yang merupakan string stempel waktu dalam UTC format untuk "startingPosition" hanya didukung untuk AWS Glue versi 4.0 atau yang lebih baru.

  • MaxFetchTimeInMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Waktu maksimum yang dihabiskan untuk pelaksana pekerjaan untuk membaca catatan untuk batch saat ini dari aliran data Kinesis, ditentukan dalam milidetik (ms). Beberapa GetRecords API panggilan dapat dilakukan dalam waktu ini. Nilai default-nya adalah 1000.

  • MaxFetchRecordsPerShard— Jumlah (panjang), tidak lebih dari Tidak ada.

    Jumlah maksimum catatan yang diambil per pecahan dalam aliran data Kinesis per mikrobatch. Catatan: Klien dapat melampaui batas ini jika pekerjaan streaming telah membaca catatan tambahan dari Kinesis (dalam panggilan get-records yang sama). Jika MaxFetchRecordsPerShard perlu ketat maka itu harus kelipatanMaxRecordPerRead. Nilai default-nya adalah 100000.

  • MaxRecordPerRead— Jumlah (panjang), tidak lebih dari Tidak ada.

    Jumlah maksimum catatan untuk diambil dari aliran data Kinesis dalam getRecords setiap operasi. Nilai default-nya adalah 10000.

  • AddIdleTimeBetweenReads – Boolean.

    Menambahkan penundaan waktu antara dua operasi berturut-turut getRecords . Nilai default-nya adalah "False". Opsi ini hanya dapat dikonfigurasi untuk Glue versi 2.0 dan di atasnya.

  • IdleTimeBetweenReadsInMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Waktu tunda minimum antara dua getRecords operasi berturut-turut, ditentukan dalam ms. Nilai default-nya adalah 1000. Opsi ini hanya dapat dikonfigurasi untuk Glue versi 2.0 dan di atasnya.

  • DescribeShardInterval— Jumlah (panjang), tidak lebih dari Tidak ada.

    Interval waktu minimum antara dua ListShards API panggilan untuk skrip Anda untuk mempertimbangkan resharding. Nilai default-nya adalah 1s.

  • NumRetries — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah maksimum percobaan ulang untuk permintaan Kinesis Data Streams. API Nilai default-nya adalah 3.

  • RetryIntervalMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Periode waktu pendinginan (ditentukan dalam ms) sebelum mencoba kembali panggilan Kinesis Data Streams. API Nilai default-nya adalah 1000.

  • MaxRetryIntervalMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Periode waktu pendinginan maksimum (ditentukan dalam ms) antara dua percobaan ulang panggilan Kinesis Data Streams. API Nilai default-nya adalah 10000.

  • AvoidEmptyBatches – Boolean.

    Hindari membuat pekerjaan microbatch kosong dengan memeriksa data yang belum dibaca di aliran data Kinesis sebelum batch dimulai. Nilai default-nya adalah "False".

  • StreamArn— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama Sumber Daya Amazon (ARN) dari aliran data Kinesis.

  • RoleArn— UTF -8 string, cocok dengan. Custom string pattern #59

    Amazon Resource Name (ARN) dari peran yang akan diambil menggunakan AWS Security Token Service (AWSSTS). Peran ini harus memiliki izin untuk mendeskripsikan atau membaca operasi rekaman untuk aliran data Kinesis. Anda harus menggunakan parameter ini saat mengakses aliran data di akun yang berbeda. Digunakan bersama dengan"awsSTSSessionName".

  • RoleSessionName— UTF -8 string, cocok dengan. Custom string pattern #59

    Pengidentifikasi untuk sesi dengan asumsi peran menggunakan. AWS STS Anda harus menggunakan parameter ini saat mengakses aliran data di akun yang berbeda. Digunakan bersama dengan"awsSTSRoleARN".

  • AddRecordTimestamp— UTF -8 string, cocok dengan. Custom string pattern #59

    Ketika opsi ini diatur ke 'true', output data akan berisi kolom tambahan bernama “__src_timestamp” yang menunjukkan waktu ketika catatan terkait diterima oleh aliran. Nilai defaultnya adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • EmitConsumerLagMetrics— UTF -8 string, cocok dengan. Custom string pattern #59

    Ketika opsi ini disetel ke 'true', untuk setiap batch, itu akan memancarkan metrik untuk durasi antara rekaman tertua yang diterima oleh aliran dan waktu pemasangannya. AWS Glue CloudWatch Nama metriknya adalah “glue.driver.streaming. maxConsumerLagInMs”. Nilai defaultnya adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • StartingTimestamp— UTF -8 string.

    Stempel waktu catatan dalam aliran data Kinesis untuk mulai membaca data dari. Nilai yang mungkin adalah string stempel waktu dalam UTC format pola yyyy-mm-ddTHH:MM:SSZ (di mana Z mewakili offset UTC zona waktu dengan +/-. Misalnya: “2023-04-04T 08:00:00 + 08:00 “).

CatalogKafkaSource struktur

Menentukan penyimpanan data Apache Kafka dalam Katalog Data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama penyimpanan data

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk dibaca.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk dibaca.

  • StreamingOptions — Sebuah objek KafkaStreamingSourceOptions.

    Menentukan opsi streaming.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Menentukan pilihan yang terkait dengan pratinjau data untuk melihat sampel data Anda.

DirectKafkaSource struktur

Menentukan toko data Apache Kafka.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama penyimpanan data

  • StreamingOptions — Sebuah objek KafkaStreamingSourceOptions.

    Menentukan opsi streaming.

  • WindowSize — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah waktu yang dihabiskan untuk memproses setiap batch mikro.

  • DetectSchema – Boolean.

    Apakah akan secara otomatis menentukan skema dari data yang masuk.

  • DataPreviewOptions — Sebuah objek StreamingDataPreviewOptions.

    Menentukan pilihan yang terkait dengan pratinjau data untuk melihat sampel data Anda.

KafkaStreamingSourceOptions struktur

Opsi tambahan untuk streaming.

Bidang
  • BootstrapServers— UTF -8 string, cocok dengan. Custom string pattern #59

    Daftar server bootstrapURLs, misalnya, sebagaib-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Opsi ini harus ditentukan dalam API panggilan atau didefinisikan dalam metadata tabel di Katalog Data.

  • SecurityProtocol— UTF -8 string, cocok dengan. Custom string pattern #59

    Protokol yang digunakan untuk berkomunikasi dengan broker. Nilai yang mungkin adalah "SSL" atau "PLAINTEXT".

  • ConnectionName— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi.

  • TopicName— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama topik seperti yang ditentukan dalam Apache Kafka. Anda harus menentukan setidaknya satu "topicName", "assign" atau "subscribePattern".

  • Assign— UTF -8 string, cocok dengan. Custom string pattern #59

    Spesifik TopicPartitions untuk dikonsumsi. Anda harus menentukan setidaknya satu "topicName", "assign" atau "subscribePattern".

  • SubscribePattern— UTF -8 string, cocok dengan. Custom string pattern #59

    String regex Java yang mengidentifikasi daftar topik untuk berlangganan. Anda harus menentukan setidaknya satu "topicName", "assign" atau "subscribePattern".

  • Classification— UTF -8 string, cocok dengan. Custom string pattern #59

    Klasifikasi opsional.

  • Delimiter— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan karakter pembatas.

  • StartingOffsets— UTF -8 string, cocok dengan. Custom string pattern #59

    Posisi awal dalam topik Kafka untuk membaca data dari. Nilai yang mungkin adalah "earliest" atau "latest". Nilai default-nya adalah "latest".

  • EndingOffsets— UTF -8 string, cocok dengan. Custom string pattern #59

    Titik akhir ketika kueri batch berakhir. Nilai yang mungkin adalah salah satu "latest" atau JSON string yang menentukan offset akhir untuk masing-masing. TopicPartition

  • PollTimeoutMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Batas waktu dalam milidetik untuk polling data dari Kafka di pelaksana pekerjaan Spark. Nilai default-nya adalah 512.

  • NumRetries — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Berapa kali untuk mencoba lagi sebelum gagal mengambil offset Kafka. Nilai default-nya adalah 3.

  • RetryIntervalMs— Jumlah (panjang), tidak lebih dari Tidak ada.

    Waktu dalam milidetik untuk menunggu sebelum mencoba lagi untuk mengambil offset Kafka. Nilai default-nya adalah 10.

  • MaxOffsetsPerTrigger— Jumlah (panjang), tidak lebih dari Tidak ada.

    Batas laju pada jumlah maksimum offset yang diproses per interval pemicu. Jumlah total offset yang ditentukan dibagi secara proporsional di seluruh topicPartitions dengan volume yang berbeda. Nilai default-nya adalah nol, yang berarti bahwa konsumen membaca semua offset sampai diketahui offset terbaru.

  • MinPartitions — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Jumlah minimum partisi yang diinginkan untuk dibaca dari Kafka. Nilai default-nya adalah nol, yang berarti bahwa jumlah partisi spark sama dengan jumlah partisi Kafka.

  • IncludeHeaders – Boolean.

    Apakah akan menyertakan header Kafka. Ketika opsi diatur ke “true”, output data akan berisi kolom tambahan bernama “glue_streaming_kafka_headers” dengan tipe. Array[Struct(key: String, value: String)] Nilai defaultnya adalah “false”. Opsi ini hanya tersedia dalam AWS Glue versi 3.0 atau yang lebih baru.

  • AddRecordTimestamp— UTF -8 string, cocok dengan. Custom string pattern #59

    Ketika opsi ini diatur ke 'true', output data akan berisi kolom tambahan bernama “__src_timestamp” yang menunjukkan waktu ketika catatan terkait diterima oleh topik. Nilai defaultnya adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • EmitConsumerLagMetrics— UTF -8 string, cocok dengan. Custom string pattern #59

    Ketika opsi ini disetel ke 'true', untuk setiap batch, itu akan memancarkan metrik untuk durasi antara catatan tertua yang diterima oleh topik dan waktu tiba. AWS Glue CloudWatch Nama metriknya adalah “glue.driver.streaming. maxConsumerLagInMs”. Nilai defaultnya adalah 'salah'. Opsi ini didukung di AWS Glue versi 4.0 atau yang lebih baru.

  • StartingTimestamp— UTF -8 string.

    Stempel waktu catatan dalam topik Kafka untuk mulai membaca data dari. Nilai yang mungkin adalah string stempel waktu dalam UTC format pola yyyy-mm-ddTHH:MM:SSZ (di mana Z mewakili offset UTC zona waktu dengan +/-. Misalnya: “2023-04-04T 08:00:00 + 08:00 “).

    Hanya satu StartingTimestamp atau StartingOffsets harus ditetapkan.

RedshiftSource struktur

Menentukan penyimpanan data Amazon Redshift.

Bidang

AmazonRedshiftSource struktur

Menentukan sumber Amazon Redshift.

Bidang

AmazonRedshiftNodeData struktur

Menentukan node Amazon Redshift.

Bidang
  • AccessType— UTF -8 string, cocok dengan. Custom string pattern #58

    Jenis akses untuk koneksi Redshift. Bisa berupa koneksi langsung atau koneksi katalog.

  • SourceType— UTF -8 string, cocok dengan. Custom string pattern #58

    Jenis sumber untuk menentukan apakah tabel tertentu adalah sumber atau kueri kustom.

  • Connection — Sebuah objek Opsi.

    AWS Glue Koneksi ke cluster Redshift.

  • Schema — Sebuah objek Opsi.

    Nama skema Redshift saat bekerja dengan koneksi langsung.

  • Table — Sebuah objek Opsi.

    Nama tabel Redshift saat bekerja dengan koneksi langsung.

  • CatalogDatabase — Sebuah objek Opsi.

    Nama database Katalog AWS Glue Data saat bekerja dengan katalog data.

  • CatalogTable — Sebuah objek Opsi.

    Nama tabel Katalog AWS Glue Data saat bekerja dengan katalog data.

  • CatalogRedshiftSchema— UTF -8 string.

    Nama skema Redshift saat bekerja dengan katalog data.

  • CatalogRedshiftTable— UTF -8 string.

    Tabel database untuk dibaca.

  • TempDir— UTF -8 string, cocok dengan. Custom string pattern #59

    Jalur Amazon S3 tempat data sementara dapat dipentaskan saat menyalin dari database.

  • IamRole — Sebuah objek Opsi.

    Tidak wajib. Nama peran digunakan saat koneksi ke S3. IAMPeran akan menjadi default ke peran pada pekerjaan saat dibiarkan kosong.

  • AdvancedOptions – Susunan objek AmazonRedshiftAdvancedOption.

    Nilai opsional saat menghubungkan ke cluster Redshift.

  • SampleQuery— UTF -8 string.

    Yang SQL digunakan untuk mengambil data dari sumber Redshift saat 'kueri' SourceType.

  • PreAction— UTF -8 string.

    Yang SQL digunakan sebelum MERGE atau APPEND dengan upsert dijalankan.

  • PostAction— UTF -8 string.

    Yang SQL digunakan sebelum MERGE atau APPEND dengan upsert dijalankan.

  • Action— UTF -8 string.

    Menentukan bagaimana menulis ke cluster Redshift akan terjadi.

  • TablePrefix— UTF -8 string, cocok dengan. Custom string pattern #58

    Menentukan awalan untuk tabel.

  • Upsert – Boolean.

    Tindakan yang digunakan pada Redshift tenggelam saat melakukan. APPEND

  • MergeAction— UTF -8 string, cocok dengan. Custom string pattern #58

    Tindakan yang digunakan kapan harus mendetemine bagaimana a MERGE di wastafel Redshift akan ditangani.

  • MergeWhenMatched— UTF -8 string, cocok dengan. Custom string pattern #58

    Tindakan yang digunakan saat menentukan bagaimana wastafel MERGE di Redshift akan ditangani ketika rekaman yang ada cocok dengan rekor baru.

  • MergeWhenNotMatched— UTF -8 string, cocok dengan. Custom string pattern #58

    Tindakan yang digunakan saat menentukan bagaimana wastafel MERGE di Redshift akan ditangani ketika rekaman yang ada tidak cocok dengan rekor baru.

  • MergeClause— UTF -8 string.

    Yang SQL digunakan dalam penggabungan kustom untuk menangani catatan yang cocok.

  • CrawlerConnection— UTF -8 string.

    Menentukan nama koneksi yang terkait dengan tabel katalog yang digunakan.

  • TableSchema – Susunan objek Opsi.

    Array output skema untuk node tertentu.

  • StagingTable— UTF -8 string.

    Nama tabel pementasan sementara yang digunakan saat melakukan MERGE atau APPEND dengan upsert.

  • SelectedColumns – Susunan objek Opsi.

    Daftar nama kolom yang digunakan untuk menentukan catatan yang cocok saat melakukan MERGE atau APPEND dengan upsert.

AmazonRedshiftAdvancedOption struktur

Menentukan nilai opsional saat menghubungkan ke cluster Redshift.

Bidang
  • Key— UTF -8 string.

    Kunci untuk opsi koneksi tambahan.

  • Value— UTF -8 string.

    Nilai untuk opsi koneksi tambahan.

Struktur opsi

Menentukan nilai pilihan.

Bidang

Struktur S3 CatalogSource

Menentukan penyimpanan data Amazon S3 di Katalog Data AWS Glue .

Bidang

Struktur S3 SourceAdditionalOptions

Menentukan opsi koneksi tambahan untuk penyimpanan data Amazon S3.

Bidang
  • BoundedSize — Nomor (panjang).

    Menetapkan batas atas untuk ukuran target dataset dalam byte yang akan diproses.

  • BoundedFiles — Nomor (panjang).

    Menetapkan batas atas untuk jumlah target file yang akan diproses.

Struktur S3 CsvSource

Menentukan nilai yang dipisahkan perintah (CSV) penyimpanan data yang disimpan di Amazon S3.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama penyimpanan data

  • PathsDiperlukan: Sebuah array UTF -8 string.

    Daftar jalur Amazon S3 untuk dibaca.

  • CompressionType— UTF -8 string (nilai valid: gzip="GZIP" |bzip2="BZIP2").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • Exclusions— Sebuah array dari UTF -8 string.

    String yang berisi JSON daftar pola glob gaya Unix untuk dikecualikan. Misalnya, “[\" **.pdf\ "]” mengecualikan semua file. PDF

  • GroupSize— UTF -8 string, cocok dengan. Custom string pattern #59

    Ukuran kelompok target dalam byte. Default-nya dihitung berdasarkan ukuran input data dan ukuran klaster Anda. Ketika ada kurang dari 50.000 file input, "groupFiles" harus diatur ke "inPartition" agar ini berlaku.

  • GroupFiles— UTF -8 string, cocok dengan. Custom string pattern #59

    Pengelompokan file diaktifkan secara default ketika input berisi lebih dari 50.000 file. Untuk mengaktifkan pengelompokan dengan kurang dari 50.000 file, atur parameter ini ke "inPartition”. Untuk menonaktifkan pengelompokan dalam grup ketika ada lebih dari 50.000 file, tetapkan parameter ini ke "none".

  • Recurse – Boolean.

    Jika disetel ke true, secara rekursif membaca file di semua subdirektori di bawah jalur yang ditentukan.

  • MaxBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini mengontrol durasi dalam milidetik setelah itu daftar s3 cenderung konsisten. File dengan stempel waktu modifikasi yang berada dalam maxBand milidetik terakhir dilacak secara khusus saat menggunakan JobBookmarks untuk memperhitungkan konsistensi Amazon S3. Sebagian besar pengguna tidak perlu mengatur opsi ini. Default-nya adalah 900000 milidetik, atau 15 menit.

  • MaxFilesInBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini menentukan jumlah maksimum file untuk menyimpan dari maxBand detik terakhir. Jika jumlah ini terlampaui, file tambahan akan dilewati dan hanya diproses dalam eksekusi tugas berikutnya.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

  • SeparatorDiperlukan: UTF -8 string (nilai valid: comma="COMMA" | | ctrla="CTRLA" | pipe="PIPE" semicolon="SEMICOLON" |tab="TAB").

    Menentukan karakter pembatas. Defaultnya adalah koma: “,”, tetapi karakter lain dapat ditentukan.

  • Escaper— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan karakter yang akan digunakan untuk melarikan diri. Opsi ini hanya digunakan saat membaca CSV file. Nilai default-nya adalah none. Jika diaktifkan, karakter yang ada langsung setelahnya digunakan apa adanya, kecuali untuk satu set karakter escape yang sudah sangat dikenal (\n, \r, \t, dan \0).

  • QuoteChar- Diperlukan: UTF -8 string (nilai valid: quote="QUOTE" | | quillemet="QUILLEMET" single_quote="SINGLE_QUOTE" |disabled="DISABLED").

    Menentukan karakter yang akan digunakan untuk mengutip. Default-nya adalah kutipan ganda: '"'. Atur ini ke -1 untuk menonaktifkan pengutipan seluruhnya.

  • Multiline – Boolean.

    Nilai Boolean yang menentukan apakah catatan tunggal dapat menjangkau beberapa baris. Hal ini dapat terjadi ketika bidang berisi karakter baris baru yang dikutip. Anda harus mengatur opsi ini ke True jika ada catatan yang mencakup beberapa baris. Nilai default-nya adalah False, yang memungkinkan untuk pemecahan file yang lebih agresif selama penguraian.

  • WithHeader – Boolean.

    Nilai Boolean yang menentukan apakah akan memperlakukan baris pertama sebagai header. Nilai default-nya adalah False.

  • WriteHeader – Boolean.

    Sebuah nilai Boolean yang menentukan apakah untuk menulis header untuk output. Nilai default-nya adalah True.

  • SkipFirst – Boolean.

    Nilai Boolean yang menentukan apakah akan melewati baris data pertama. Nilai default-nya adalah False.

  • OptimizePerformance – Boolean.

    Nilai Boolean yang menentukan apakah akan menggunakan SIMD CSV pembaca tingkat lanjut bersama dengan format memori kolumnar berbasis Apache Arrow. Hanya tersedia dalam AWS Glue versi 3.0.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber CSV S3.

irectJDBCSource Struktur D

Menentukan koneksi JDBC sumber langsung.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama koneksi JDBC sumber.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Database koneksi JDBC sumber.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Tabel koneksi JDBC sumber.

  • ConnectionName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi JDBC sumbernya.

  • ConnectionTypeDiperlukan: UTF -8 string (nilai valid: sqlserver | | mysql | oracle postgresql |redshift).

    Jenis koneksi JDBC sumber.

  • RedshiftTmpDir— UTF -8 string, cocok dengan. Custom string pattern #59

    Direktori temp dari sumber JDBC Redshift.

Struktur S3 DirectSourceAdditionalOptions

Menentukan opsi koneksi tambahan untuk penyimpanan data Amazon S3.

Bidang
  • BoundedSize — Nomor (panjang).

    Menetapkan batas atas untuk ukuran target dataset dalam byte yang akan diproses.

  • BoundedFiles — Nomor (panjang).

    Menetapkan batas atas untuk jumlah target file yang akan diproses.

  • EnableSamplePath – Boolean.

    Menetapkan opsi untuk mengaktifkan jalur sampel.

  • SamplePath— UTF -8 string, cocok dengan. Custom string pattern #59

    Jika diaktifkan, menentukan jalur sampel.

Struktur S3 JsonSource

Menentukan penyimpanan JSON data yang disimpan di Amazon S3.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama penyimpanan data

  • PathsDiperlukan: Sebuah array UTF -8 string.

    Daftar jalur Amazon S3 untuk dibaca.

  • CompressionType— UTF -8 string (nilai valid: gzip="GZIP" |bzip2="BZIP2").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • Exclusions— Sebuah array dari UTF -8 string.

    String yang berisi JSON daftar pola glob gaya Unix untuk dikecualikan. Misalnya, “[\" **.pdf\ "]” mengecualikan semua file. PDF

  • GroupSize— UTF -8 string, cocok dengan. Custom string pattern #59

    Ukuran kelompok target dalam byte. Default-nya dihitung berdasarkan ukuran input data dan ukuran klaster Anda. Ketika ada kurang dari 50.000 file input, "groupFiles" harus diatur ke "inPartition" agar ini berlaku.

  • GroupFiles— UTF -8 string, cocok dengan. Custom string pattern #59

    Pengelompokan file diaktifkan secara default ketika input berisi lebih dari 50.000 file. Untuk mengaktifkan pengelompokan dengan kurang dari 50.000 file, atur parameter ini ke "inPartition”. Untuk menonaktifkan pengelompokan dalam grup ketika ada lebih dari 50.000 file, tetapkan parameter ini ke "none".

  • Recurse – Boolean.

    Jika disetel ke true, secara rekursif membaca file di semua subdirektori di bawah jalur yang ditentukan.

  • MaxBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini mengontrol durasi dalam milidetik setelah itu daftar s3 cenderung konsisten. File dengan stempel waktu modifikasi yang berada dalam maxBand milidetik terakhir dilacak secara khusus saat menggunakan JobBookmarks untuk memperhitungkan konsistensi Amazon S3. Sebagian besar pengguna tidak perlu mengatur opsi ini. Default-nya adalah 900000 milidetik, atau 15 menit.

  • MaxFilesInBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini menentukan jumlah maksimum file untuk menyimpan dari maxBand detik terakhir. Jika jumlah ini terlampaui, file tambahan akan dilewati dan hanya diproses dalam eksekusi tugas berikutnya.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

  • JsonPath— UTF -8 string, cocok dengan. Custom string pattern #59

    JsonPath String yang mendefinisikan JSON data.

  • Multiline – Boolean.

    Nilai Boolean yang menentukan apakah catatan tunggal dapat menjangkau beberapa baris. Hal ini dapat terjadi ketika bidang berisi karakter baris baru yang dikutip. Anda harus mengatur opsi ini ke True jika ada catatan yang mencakup beberapa baris. Nilai default-nya adalah False, yang memungkinkan untuk pemecahan file yang lebih agresif selama penguraian.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber JSON S3.

Struktur S3 ParquetSource

Menentukan penyimpanan data Apache Parquet yang disimpan di Amazon S3.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama penyimpanan data

  • PathsDiperlukan: Sebuah array UTF -8 string.

    Daftar jalur Amazon S3 untuk dibaca.

  • CompressionType— UTF -8 string (nilai valid: snappy="SNAPPY" | | lzo="LZO" | gzip="GZIP" uncompressed="UNCOMPRESSED" |none="NONE").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • Exclusions— Sebuah array dari UTF -8 string.

    String yang berisi JSON daftar pola glob gaya Unix untuk dikecualikan. Misalnya, “[\" **.pdf\ "]” mengecualikan semua file. PDF

  • GroupSize— UTF -8 string, cocok dengan. Custom string pattern #59

    Ukuran kelompok target dalam byte. Default-nya dihitung berdasarkan ukuran input data dan ukuran klaster Anda. Ketika ada kurang dari 50.000 file input, "groupFiles" harus diatur ke "inPartition" agar ini berlaku.

  • GroupFiles— UTF -8 string, cocok dengan. Custom string pattern #59

    Pengelompokan file diaktifkan secara default ketika input berisi lebih dari 50.000 file. Untuk mengaktifkan pengelompokan dengan kurang dari 50.000 file, atur parameter ini ke "inPartition”. Untuk menonaktifkan pengelompokan dalam grup ketika ada lebih dari 50.000 file, tetapkan parameter ini ke "none".

  • Recurse – Boolean.

    Jika disetel ke true, secara rekursif membaca file di semua subdirektori di bawah jalur yang ditentukan.

  • MaxBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini mengontrol durasi dalam milidetik setelah itu daftar s3 cenderung konsisten. File dengan stempel waktu modifikasi yang berada dalam maxBand milidetik terakhir dilacak secara khusus saat menggunakan JobBookmarks untuk memperhitungkan konsistensi Amazon S3. Sebagian besar pengguna tidak perlu mengatur opsi ini. Default-nya adalah 900000 milidetik, atau 15 menit.

  • MaxFilesInBand — Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Opsi ini menentukan jumlah maksimum file untuk menyimpan dari maxBand detik terakhir. Jika jumlah ini terlampaui, file tambahan akan dilewati dan hanya diproses dalam eksekusi tugas berikutnya.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan koneksi tambahan.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Parket S3.

Struktur S3 DeltaSource

Menentukan sumber data Delta Lake yang disimpan di. Amazon S3

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama sumber Danau Delta.

  • PathsDiperlukan: Sebuah array UTF -8 string.

    Daftar jalur Amazon S3 untuk dibaca.

  • AdditionalDeltaOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Delta Lake.

Struktur S3 CatalogDeltaSource

Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data. Sumber data harus disimpan di Amazon S3.

Bidang

CatalogDeltaSource struktur

Menentukan sumber data Delta Lake yang terdaftar di Katalog AWS Glue Data.

Bidang

Struktur S3 HudiSource

Menentukan sumber data Hudi disimpan di. Amazon S3

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama sumber Hudi.

  • PathsDiperlukan: Sebuah array UTF -8 string.

    Daftar jalur Amazon S3 untuk dibaca.

  • AdditionalHudiOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan.

  • AdditionalOptions — Sebuah objek S3 DirectSourceAdditionalOptions.

    Menentukan pilihan tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber Hudi.

Struktur S3 CatalogHudiSource

Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data. Sumber data Hudi harus disimpan di Amazon S3.

Bidang

CatalogHudiSource struktur

Menentukan sumber data Hudi yang terdaftar di Katalog AWS Glue Data.

Bidang

D Struktur ynamoDBCatalog sumber

Menentukan sumber data DynamoDB dalam Katalog Data. AWS Glue

Bidang

RelationalCatalogSource struktur

Menentukan sumber data database Relasional dalam Katalog AWS Glue Data.

Bidang

JDBCConnectorTargetstruktur

Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • ConnectionName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi yang dikaitkan dengan konektor.

  • ConnectionTable- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam target data.

  • ConnectorName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama konektor yang akan digunakan.

  • ConnectionType- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jenis koneksi, seperti marketplace.jdbc atau custom.jdbc, menunjuk koneksi ke target data. JDBC

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Opsi koneksi tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk target. JDBC

SparkConnectorTarget struktur

Menentukan target yang menggunakan konektor Apache Spark.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • ConnectionName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi untuk konektor Apache Spark.

  • ConnectorName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama konektor Apache Spark.

  • ConnectionType- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jenis koneksi, seperti marketplace.spark atau custom.spark, menunjuk koneksi ke penyimpanan data Apache Spark.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Opsi koneksi tambahan untuk konektor.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk target percikan kustom.

BasicCatalogTarget struktur

Menentukan target yang menggunakan tabel AWS Glue Data Catalog.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data Anda.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Kunci partisi yang digunakan untuk mendistribusikan data di beberapa partisi atau pecahan berdasarkan kunci tertentu atau set kunci.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Database yang berisi tabel yang ingin Anda gunakan sebagai target. Basis data ini harus sudah ada dalam Katalog Data.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Tabel yang mendefinisikan skema data output Anda. Tabel ini sudah harus ada dalam Katalog Data.

M Struktur ySQLCatalog target

Menentukan target yang menggunakan MySQL.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

P Struktur ostgreSQLCatalog target

Menentukan target yang menggunakan SQL Postgres.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

O Struktur racleSQLCatalog target

Menentukan target yang menggunakan SQL Oracle.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

icrosoftSQLServerCatalogTarget Struktur M

Menentukan target yang menggunakan MicrosoftSQL.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

RedshiftTarget struktur

Menentukan target yang menggunakan Amazon Redshift.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

  • RedshiftTmpDir— UTF -8 string, cocok dengan. Custom string pattern #59

    Jalur Amazon S3 tempat data sementara dapat dipentaskan saat menyalin dari database.

  • TmpDirIAMRole— UTF -8 string, cocok dengan. Custom string pattern #59

    IAMPeran dengan izin.

  • UpsertRedshiftOptions — Sebuah objek UpsertRedshiftTargetOptions.

    Kumpulan opsi untuk mengonfigurasi operasi upsert saat menulis ke target Redshift.

AmazonRedshiftTarget struktur

Menentukan target Amazon Redshift.

Bidang
  • Name— UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target Amazon Redshift.

  • Data — Sebuah objek AmazonRedshiftNodeData.

    Menentukan data node target Amazon Redshift.

  • Inputs— Array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

UpsertRedshiftTargetOptions struktur

Opsi untuk mengonfigurasi operasi upsert saat menulis ke target Redshift.

Bidang
  • TableLocation— UTF -8 string, cocok dengan. Custom string pattern #59

    Lokasi fisik tabel Redshift.

  • ConnectionName— UTF -8 string, cocok dengan. Custom string pattern #59

    Nama koneksi yang digunakan untuk menulis ke Redshift.

  • UpsertKeys— Sebuah array dari UTF -8 string.

    Kunci yang digunakan untuk menentukan apakah akan melakukan pembaruan atau menyisipkan.

Struktur S3 CatalogTarget

Menentukan target data yang menulis ke Amazon S3 menggunakan Katalog Data AWS Glue .

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 GlueParquetTarget

Menentukan target data yang menulis ke Amazon S3 di penyimpanan kolumnar Apache Parquet.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Path- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Satu jalur Amazon S3 untuk menulis.

  • Compression— UTF -8 string (nilai valid: snappy="SNAPPY" | | lzo="LZO" | gzip="GZIP" uncompressed="UNCOMPRESSED" |none="NONE").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

CatalogSchemaChangePolicy struktur

Kebijakan yang menentukan perilaku update untuk crawler.

Bidang
  • EnableUpdateCatalog – Boolean.

    Apakah akan menggunakan perilaku pembaruan yang ditentukan saat crawler menemukan skema yang diubah.

  • UpdateBehavior— UTF -8 string (nilai valid: UPDATE_IN_DATABASE |LOG).

    Perilaku pembaruan ketika perayap menemukan skema yang berubah.

Struktur S3 DirectTarget

Menentukan target data yang menulis ke Amazon S3.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Path- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Satu jalur Amazon S3 untuk menulis.

  • Compression— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • FormatDiperlukan: UTF -8 string (nilai valid: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Menentukan format output data untuk target.

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 HudiCatalogTarget

Menentukan target yang menulis ke sumber data Hudi di Katalog AWS Glue Data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • AdditionalOptionsWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 HudiDirectTarget

Menentukan target yang menulis ke sumber data Hudi di. Amazon S3

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • Path- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jalur Amazon S3 dari sumber data Hudi Anda untuk menulis.

  • Compression- Diperlukan: UTF -8 string (nilai valid: gzip="GZIP" | | lzo="LZO" uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • FormatDiperlukan: UTF -8 string (nilai valid: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Menentukan format output data untuk target.

  • AdditionalOptionsWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 DeltaCatalogTarget

Menentukan target yang menulis ke sumber data Delta Lake di Katalog AWS Glue Data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

Struktur S3 DeltaDirectTarget

Menentukan target yang menulis ke sumber data Delta Lake di. Amazon S3

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Path- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jalur Amazon S3 dari sumber data Delta Lake Anda untuk menulis.

  • Compression- Diperlukan: UTF -8 string (nilai valid: uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Menentukan bagaimana data dikompresi. Hal ini umumnya tidak diperlukan jika data memiliki sebuah ekstensi file standar. Nilai yang mungkin adalah "gzip" dan"bzip").

  • FormatDiperlukan: UTF -8 string (nilai valid: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Menentukan format output data untuk target.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Menentukan pilihan koneksi tambahan untuk konektor.

  • SchemaChangePolicy — Sebuah objek DirectSchemaChangePolicy.

    Kebijakan yang menentukan perilaku update untuk crawler.

DirectSchemaChangePolicy struktur

Kebijakan yang menentukan perilaku update untuk crawler.

Bidang
  • EnableUpdateCatalog – Boolean.

    Apakah akan menggunakan perilaku pembaruan yang ditentukan saat crawler menemukan skema yang diubah.

  • UpdateBehavior— UTF -8 string (nilai valid: UPDATE_IN_DATABASE |LOG).

    Perilaku pembaruan ketika perayap menemukan skema yang berubah.

  • Table— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan tabel dalam database yang berlaku kebijakan perubahan skema.

  • Database— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan database yang berlaku untuk kebijakan perubahan skema.

ApplyMapping struktur

Menentukan transformasi yang memetakan kunci properti data dalam sumber data ke kunci properti data dalam target data. Anda dapat mengganti nama kunci, memodifikasi tipe data untuk kunci, dan memilih kunci mana yang akan dibuang dari set data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • MappingWajib: Susunan objek Pemetaan.

    Menentukan pemetaan kunci properti data dalam sumber data untuk kunci properti data dalam target data.

Struktur pemetaan

Menentukan pemetaan kunci properti data.

Bidang
  • ToKey— UTF -8 string, cocok dengan. Custom string pattern #59

    Setelah menerapkan pemetaan, apa nama kolom seharusnya. Bisa sama denganFromPath.

  • FromPath— Sebuah array dari UTF -8 string.

    Tabel atau kolom yang akan dimodifikasi.

  • FromType— UTF -8 string, cocok dengan. Custom string pattern #59

    Jenis data yang akan dimodifikasi.

  • ToType— UTF -8 string, cocok dengan. Custom string pattern #59

    Tipe data yang akan dimodifikasi untuk data.

  • Dropped – Boolean.

    Jika benar, maka kolom dihapus.

  • Children – Susunan objek Pemetaan.

    Hanya berlaku untuk struktur data bersarang. Jika Anda ingin mengubah struktur induk, tetapi juga salah satu anaknya, Anda dapat mengisi strucutre data ini. Hal ini jugaMapping, tetapi FromPath akan menjadi induk FromPath ditambah FromPath dari struktur ini.

    Untuk bagian anak-anak, misalkan Anda memiliki struktur:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    Anda dapat menentukan Mapping yang terlihat seperti:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields struktur

Menentukan transformasi yang memilih kunci properti data yang ingin Anda simpan.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • PathsDiperlukan: Sebuah array UTF -8 string.

    JSONPath ke variabel dalam struktur data.

DropFields struktur

Menentukan transformasi yang memilih kunci properti data yang ingin Anda drop.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • PathsDiperlukan: Sebuah array UTF -8 string.

    JSONPath ke variabel dalam struktur data.

RenameField struktur

Menentukan transformasi yang mengganti nama kunci properti data tunggal.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • SourcePathDiperlukan: Sebuah array UTF -8 string.

    JSONPath ke variabel dalam struktur data untuk sumber data.

  • TargetPathDiperlukan: Sebuah array UTF -8 string.

    JSONPath ke variabel dalam struktur data untuk data target.

Struktur keran

Menentukan transformasi yang menulis sampel data ke bucket Amazon S3.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • Path- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Jalur di Amazon S3 tempat transformasi akan menulis subset catatan dari kumpulan data ke JSON file di bucket Amazon S3.

  • Topk— Angka (bilangan bulat), tidak lebih dari 100.

    Menentukan sejumlah catatan untuk menulis mulai dari awal dataset.

  • Prob— Jumlah (ganda), tidak lebih dari 1.

    Probabilitas (nilai desimal dengan nilai maksimum 1) untuk memilih catatan yang diberikan. Nilai 1 menunjukkan bahwa setiap baris yang dibaca dari kumpulan data harus dimasukkan dalam output sampel.

Bergabunglah dengan struktur

Menentukan transformasi yang menggabungkan dua dataset menjadi satu dataset menggunakan frase perbandingan pada kunci properti data tertentu. Anda dapat menggunakan join bagian dalam, luar, kiri, kanan, kiri semi, dan lawan kiri.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 2 atau lebih dari 2 string.

    Input data diidentifikasi oleh nama node mereka.

  • JoinType- Diperlukan: UTF -8 string (nilai valid: equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" leftsemi="LEFT_SEMI" |leftanti="LEFT_ANTI").

    Menentukan jenis bergabung yang akan dilakukan pada dataset.

  • ColumnsDiperlukan: Sebuah array JoinColumn objek, tidak kurang dari 2 atau lebih dari 2 struktur.

    Daftar dua kolom yang akan digabungkan.

JoinColumn struktur

Menentukan kolom yang akan bergabung.

Bidang
  • From- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Kolom yang akan bergabung.

  • KeysDiperlukan: Sebuah array UTF -8 string.

    Kunci kolom yang akan digabungkan.

SplitFields struktur

Menentukan transformasi yang membagi kunci properti data menjadi dua. DynamicFrames Outputnya adalah kumpulanDynamicFrames: satu dengan kunci properti data yang dipilih, dan satu dengan kunci properti data yang tersisa.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • PathsDiperlukan: Sebuah array UTF -8 string.

    JSONPath ke variabel dalam struktur data.

SelectFromCollection struktur

Menentukan transformasi yang memilih salah satu DynamicFrame dari koleksi. DynamicFrames Outputnya adalah yang dipilih DynamicFrame

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • IndexWajib: Nomor (bilangan bulat), tidak lebih dari Tidak Ada.

    Indeks DynamicFrame untuk yang akan dipilih.

FillMissingValues struktur

Menentukan transformasi yang menempatkan catatan dalam dataset yang memiliki nilai hilang dan menambahkan bidang baru dengan nilai ditentukan oleh imputasi. Kumpulan data input digunakan untuk melatih model pembelajaran mesin yang menentukan nilai yang hilang seharusnya.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • ImputedPath- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    JSONPath ke variabel dalam struktur data untuk dataset yang diperhitungkan.

  • FilledPath— UTF -8 string, cocok dengan. Custom string pattern #59

    JSONPath ke variabel dalam struktur data untuk dataset yang diisi.

Struktur filter

Menentukan transformasi yang membagi dataset menjadi dua, berdasarkan kondisi filter.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • LogicalOperator- Diperlukan: UTF -8 string (nilai valid: AND |OR).

    Operator digunakan untuk memfilter baris dengan membandingkan nilai kunci dengan nilai tertentu.

  • FiltersWajib: Susunan objek FilterExpression.

    Menentukan ekspresi filter.

FilterExpression struktur

Menentukan ekspresi filter.

Bidang
  • OperationDiperlukan: UTF -8 string (nilai valid: EQ | LT | GT | LTE | GTE REGEX |ISNULL).

    Jenis operasi yang harus dilakukan dalam ekspresi.

  • Negated – Boolean.

    Apakah ekspresi itu akan dinegasikan.

  • ValuesWajib: Susunan objek FilterValue.

    Daftar nilai filter.

FilterValue struktur

Merupakan entri tunggal dalam daftar nilai untuk aFilterExpression.

Bidang
  • Type- Diperlukan: UTF -8 string (nilai valid: COLUMNEXTRACTED |CONSTANT).

    Jenis nilai filter.

  • ValueDiperlukan: Sebuah array UTF -8 string.

    Nilai yang akan dikaitkan.

CustomCode struktur

Menentukan transformasi yang menggunakan kode kustom yang Anda berikan untuk melakukan transformasi data. Outputnya adalah kumpulan DynamicFrames.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array UTF -8 string, setidaknya 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • Code- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #52

    Kode kustom yang digunakan untuk melakukan transformasi data.

  • ClassName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama didefinisikan untuk kelas node kode kustom.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk mengubah kode kustom.

Struktur percikan SQL

Menentukan transformasi di mana Anda memasukkan SQL query menggunakan SQL sintaks Spark untuk mengubah data. Outputnya adalah satu DynamicFrame.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsDiperlukan: Sebuah array UTF -8 string, setidaknya 1 string.

    Input data diidentifikasi oleh nama node mereka. Anda dapat mengaitkan nama tabel dengan setiap node input untuk digunakan dalam SQL kueri. Nama yang Anda pilih harus memenuhi batasan SQL penamaan Spark.

  • SqlQuery- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #60

    SQLKueri yang harus menggunakan SQL sintaks Spark dan mengembalikan satu set data.

  • SqlAliasesWajib: Susunan objek SqlAlias.

    Daftar alias. Sebuah alias memungkinkan Anda untuk menentukan nama apa yang akan digunakan dalam SQL untuk input yang diberikan. Misalnya, Anda memiliki sumber data bernama "”. MyDataSource Jika Anda menentukan From sebagai MyDataSource, dan Alias sebagai SqlName, maka di SQL Anda dapat melakukan:

    select * from SqlName

    dan itu mendapat data dari MyDataSource.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk transformasi SparkSQL.

SqlAlias struktur

Merupakan entri tunggal dalam daftar nilai untukSqlAliases.

Bidang
  • From- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #58

    Sebuah tabel, atau kolom dalam tabel.

  • Alias- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama sementara yang diberikan ke tabel, atau kolom dalam tabel.

DropNullFields struktur

Menentukan transformasi yang menghapus kolom dari dataset jika semua nilai dalam kolom adalah 'null'. Secara default, AWS Glue Studio akan mengenali objek null, tetapi beberapa nilai seperti string kosong, string yang “null”, -1 integer atau placeholder lain seperti nol, tidak secara otomatis dikenali sebagai nol.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • NullCheckBoxList — Sebuah objek NullCheckBoxList.

    Struktur yang mewakili apakah nilai-nilai tertentu diakui sebagai nilai nol untuk dihapus.

  • NullTextList — Susunan objek NullValueField, tidak lebih dari 50 struktur.

    Struktur yang menentukan daftar NullValueField struktur yang mewakili nilai null kustom seperti nol atau nilai lain yang digunakan sebagai placeholder null yang unik untuk dataset.

    DropNullFieldsTransformasi menghapus nilai null khusus hanya jika nilai placeholder null dan tipe data cocok dengan data.

NullCheckBoxList struktur

Merupakan apakah nilai-nilai tertentu diakui sebagai nilai nol untuk dihapus.

Bidang
  • IsEmpty – Boolean.

    Menentukan bahwa string kosong dianggap sebagai nilai null.

  • IsNullString – Boolean.

    Menentukan bahwa nilai yang mengeja kata 'null' dianggap sebagai nilai null.

  • IsNegOne – Boolean.

    Menentukan bahwa nilai integer -1 dianggap sebagai nilai null.

NullValueField struktur

Merupakan nilai null kustom seperti nol atau nilai lain yang digunakan sebagai placeholder null yang unik untuk kumpulan data.

Bidang

Struktur tipe data

Struktur yang mewakili tipe data dari nilai.

Bidang

Gabungkan struktur

Menentukan transformasi yang menggabungkan DynamicFrame dengan pementasan DynamicFrame berdasarkan kunci utama yang ditentukan untuk mengidentifikasi catatan. Catatan duplikat (catatan dengan kunci primer yang sama) tidak di-deduplikasi.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 2 atau lebih dari 2 string.

    Input data diidentifikasi oleh nama node mereka.

  • Source- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #58

    Sumber DynamicFrame yang akan digabung dengan DynamicFrame pementasan.

  • PrimaryKeysDiperlukan: Sebuah array UTF -8 string.

    Daftar bidang kunci utama untuk mencocokkan catatan dari sumber dan pementasan frame dinamis.

Struktur serikat

Menentukan transformasi yang menggabungkan baris dari dua atau lebih dataset menjadi hasil tunggal.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 2 atau lebih dari 2 string.

    Input ID node ke transformasi.

  • UnionType- Diperlukan: UTF -8 string (nilai valid: ALL |DISTINCT).

    Menunjukkan jenis transformasi Union.

    Tentukan ALL untuk menggabungkan semua baris dari sumber data ke hasil DynamicFrame. Serikat yang dihasilkan tidak menghapus baris duplikat.

    Tentukan DISTINCT untuk menghapus baris duplikat dalam hasil DynamicFrame.

PIIDetectionstruktur

Menentukan transformasi yang mengidentifikasi, menghapus atau menutupi PII data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input ID node ke transformasi.

  • PiiType- Diperlukan: UTF -8 string (nilai valid: RowAudit | | RowMasking ColumnAudit |ColumnMasking).

    Menunjukkan jenis PIIDetection transformasi.

  • EntityTypesToDetectDiperlukan: Sebuah array UTF -8 string.

    Menunjukkan jenis entitas yang akan diidentifikasi oleh PIIDetection transformasi sebagai PII data.

    PIIentitas jenis meliputi: PERSON _NAME,DATE, USA _SNN,EMAIL, USA _ITIN, USA _NUMBER, PASSPORT _, PHONE _NUMBER, BANK _ACCOUNT, IP_ADDRESS, MAC _ADDRESS, USA CPT _CODE, USA _, HCPCS _CODE, USA _ NATIONAL _ DRUG _ USA _ MEDICARE _ CODEIDENTIFIER, BENEFICIARY _ USA _ _ HEALTH _ INSURANCE CLAIM _NUMBER, CREDIT _CARD, USA _ NATIONAL_ PROVIDER _IDENTIFIER, USA _ DEA _NUMBER, USA _ DRIVING _ LICENSE

  • OutputColumnName— UTF -8 string, cocok dengan. Custom string pattern #59

    Menunjukkan nama kolom keluaran yang akan berisi jenis entitas apa pun yang terdeteksi di baris itu.

  • SampleFraction— Jumlah (ganda), tidak lebih dari 1.

    Menunjukkan fraksi data yang akan diambil sampel saat memindai PII entitas.

  • ThresholdFraction— Jumlah (ganda), tidak lebih dari 1.

    Menunjukkan fraksi data yang harus dipenuhi agar kolom diidentifikasi sebagai PII data.

  • MaskValue- UTF -8 string, panjangnya tidak lebih dari 256 byte, cocok dengan. Custom string pattern #56

    Menunjukkan nilai yang akan menggantikan entitas yang terdeteksi.

Struktur agregat

Menentukan transformasi yang mengelompokkan baris dengan bidang yang dipilih dan menghitung nilai agregat dengan fungsi tertentu.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Menentukan bidang dan baris untuk digunakan sebagai input untuk transformasi agregat.

  • GroupsDiperlukan: Sebuah array UTF -8 string.

    Menentukan bidang untuk kelompok oleh.

  • AggsWajib: Sebuah array AggregateOperation objek, tidak kurang dari 1 atau lebih dari 30 struktur.

    Menentukan fungsi agregat yang akan dilakukan pada bidang tertentu.

DropDuplicates struktur

Menentukan transformasi yang menghapus baris data berulang dari kumpulan data.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node transformasi.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input data diidentifikasi oleh nama node mereka.

  • Columns— Sebuah array dari UTF -8 string.

    Nama kolom yang akan digabungkan atau dihapus jika diulang.

GovernedCatalogTarget struktur

Menentukan target data yang menulis ke Amazon S3 menggunakan Katalog Data AWS Glue .

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

  • PartitionKeys— Sebuah array dari UTF -8 string.

    Menentukan partisi asli menggunakan urutan kunci.

  • Table- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama tabel dalam database untuk menulis ke.

  • Database- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Nama database untuk menulis.

  • SchemaChangePolicy — Sebuah objek CatalogSchemaChangePolicy.

    Kebijakan yang menentukan perilaku pembaruan untuk katalog yang diatur.

GovernedCatalogSource struktur

Menentukan penyimpanan data dalam Katalog AWS Glue Data diatur.

Bidang

AggregateOperation struktur

Menentukan set parameter yang diperlukan untuk melakukan agregasi dalam transformasi agregat.

Bidang
  • ColumnDiperlukan: Sebuah array UTF -8 string.

    Menentukan kolom pada kumpulan data di mana fungsi agregasi akan diterapkan.

  • AggFuncDiperlukan: UTF -8 string (nilai valid: avg | countDistinct | count | first | last | kurtosis | max | min | skewness | | stddev_samp | stddev_pop | sum | sumDistinct var_samp |var_pop).

    Menentukan fungsi agregasi untuk menerapkan.

    Fungsi agregasi yang mungkin meliputi: avgcountDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, var_samp, var_pop sumDistinct

GlueSchema struktur

Menentukan skema yang ditetapkan pengguna ketika skema tidak dapat ditentukan oleh. AWS Glue

Bidang

GlueStudioSchemaColumn struktur

Menentukan satu kolom dalam definisi AWS Glue skema.

Bidang
  • Name- Diperlukan: UTF -8 string, panjangnya tidak lebih dari 1024 byte, cocok dengan. Single-line string pattern

    Nama kolom dalam skema AWS Glue Studio.

  • Type- UTF -8 string, panjangnya tidak lebih dari 131072 byte, cocok dengan. Single-line string pattern

    Jenis sarang untuk kolom ini dalam skema AWS Glue Studio.

GlueStudioColumn struktur

Menentukan satu kolom di AWS Glue Studio.

Bidang
  • Key- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Kunci kolom di AWS Glue Studio.

  • FullPathDiperlukan: Sebuah array UTF -8 string.

    TTheURLpenuh dengan kolom di AWS Glue Studio.

  • TypeDiperlukan: UTF -8 string (nilai valid: array="ARRAY" bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" smallint="SMALLINT"| smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" |unknown array="UNKNOWN_ARRAY").

    TThejenis kolom di AWS Glue Studio.

  • Children— Array struktur.

    TTheanak-anak dari kolom induk di AWS Glue Studio.

DynamicTransform struktur

Menentukan set parameter yang diperlukan untuk melakukan transformasi dinamis.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan nama transformasi dinamis.

  • TransformName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan nama transformasi dinamis seperti yang muncul di editor visual AWS Glue Studio.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Menentukan input untuk transformasi dinamis yang diperlukan.

  • Parameters – Susunan objek TransformConfigParameter.

    Menentukan parameter transformasi dinamis.

  • FunctionName- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan nama fungsi transformasi dinamis.

  • Path- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan jalur sumber transformasi dinamis dan file konfigurasi.

  • Version— UTF -8 string, cocok dengan. Custom string pattern #59

    Bidang ini tidak digunakan dan akan usang dalam rilis future.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk transformasi dinamis.

TransformConfigParameter struktur

Menentukan parameter dalam file konfigurasi transformasi dinamis.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan nama parameter dalam file konfigurasi dari transformasi dinamis.

  • TypeDiperlukan: UTF -8 string (nilai valid: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" list="LIST" |null="NULL").

    Menentukan jenis parameter dalam file konfigurasi dari transformasi dinamis.

  • ValidationRule— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan aturan validasi dalam file konfigurasi dari transformasi dinamis.

  • ValidationMessage— UTF -8 string, cocok dengan. Custom string pattern #59

    Menentukan pesan validasi dalam file konfigurasi dari transformasi dinamis.

  • Value— Sebuah array dari UTF -8 string.

    Menentukan nilai parameter dalam file konfigurasi dari transformasi dinamis.

  • ListType— UTF -8 string (nilai valid: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" list="LIST" |null="NULL").

    Menentukan jenis daftar parameter dalam file konfigurasi dari transformasi dinamis.

  • IsOptional – Boolean.

    Menentukan apakah parameter opsional atau tidak dalam file konfigurasi dari transformasi dinamis.

EvaluateDataQuality struktur

Menentukan kriteria evaluasi kualitas data Anda.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama evaluasi kualitas data.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Input dari evaluasi kualitas data Anda.

  • Ruleset- Wajib: UTF -8 string, tidak kurang dari 1 atau lebih dari 65536 byte panjang, cocok dengan. Custom string pattern #57

    Aturan untuk evaluasi kualitas data Anda.

  • Output— UTF -8 string (nilai valid: PrimaryInput |EvaluationResults).

    Output dari evaluasi kualitas data Anda.

  • PublishingOptions — Sebuah objek DQResultsPublishingOptions.

    Opsi untuk mengonfigurasi bagaimana hasil Anda dipublikasikan.

  • StopJobOnFailureOptions — Sebuah objek DQStopJobOnFailureOptions.

    Opsi untuk mengonfigurasi bagaimana pekerjaan Anda akan berhenti jika evaluasi kualitas data Anda gagal.

DQResultsPublishingOptionsstruktur

Opsi untuk mengonfigurasi bagaimana hasil evaluasi kualitas data Anda dipublikasikan.

Bidang
  • EvaluationContext— UTF -8 string, cocok dengan. Custom string pattern #58

    Konteks evaluasi.

  • ResultsS3Prefix— UTF -8 string, cocok dengan. Custom string pattern #59

    Awalan Amazon S3 diawali dengan hasil.

  • CloudWatchMetricsEnabled – Boolean.

    Aktifkan metrik untuk hasil kualitas data Anda.

  • ResultsPublishingEnabled – Boolean.

    Aktifkan penerbitan untuk hasil kualitas data Anda.

DQStopJobOnFailureOptionsstruktur

Opsi untuk mengonfigurasi bagaimana pekerjaan Anda akan berhenti jika evaluasi kualitas data Anda gagal.

Bidang
  • StopJobOnFailureTiming— UTF -8 string (nilai valid: Immediate |AfterDataLoad).

    Kapan harus berhenti bekerja jika evaluasi kualitas data Anda gagal. Pilihannya Segera atau AfterDataLoad.

EvaluateDataQualityMultiFrame struktur

Menentukan kriteria evaluasi kualitas data Anda.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama evaluasi kualitas data.

  • InputsDiperlukan: Sebuah array UTF -8 string, setidaknya 1 string.

    Input dari evaluasi kualitas data Anda. Input pertama dalam daftar ini adalah sumber data primer.

  • AdditionalDataSources – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #61

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Alias semua sumber data kecuali primer.

  • Ruleset- Wajib: UTF -8 string, tidak kurang dari 1 atau lebih dari 65536 byte panjang, cocok dengan. Custom string pattern #57

    Aturan untuk evaluasi kualitas data Anda.

  • PublishingOptions — Sebuah objek DQResultsPublishingOptions.

    Opsi untuk mengonfigurasi bagaimana hasil Anda dipublikasikan.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8 (nilai valid: performanceTuning.caching="CacheOption" |observations.scope="ObservationsOption").

    Setiap nilai adalah string UTF -8.

    Opsi untuk mengonfigurasi perilaku runtime transformasi.

  • StopJobOnFailureOptions — Sebuah objek DQStopJobOnFailureOptions.

    Opsi untuk mengonfigurasi bagaimana pekerjaan Anda akan berhenti jika evaluasi kualitas data Anda gagal.

Struktur resep

Node AWS Glue Studio yang menggunakan AWS Glue DataBrew resep dalam AWS Glue pekerjaan.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node AWS Glue Studio.

  • InputsWajib: Sebuah array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke node resep, diidentifikasi oleh id.

  • RecipeReference — Sebuah objek RecipeReference.

    Referensi ke DataBrew resep yang digunakan oleh node.

  • RecipeSteps – Susunan objek RecipeStep.

    Mengubah langkah-langkah yang digunakan dalam simpul resep.

RecipeReference struktur

Referensi ke AWS Glue DataBrew resep.

Bidang
  • RecipeArn- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    DataBrew Resepnya. ARN

  • RecipeVersionDiperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 16 byte.

    DataBrew Resepnya. RecipeVersion

SnowflakeNodeData struktur

Menentukan konfigurasi untuk node Snowflake di Studio. AWS Glue

Bidang
  • SourceType— UTF -8 string, cocok dengan. Custom string pattern #58

    Menentukan bagaimana data diambil ditentukan. Nilai-nilai yang valid: "table", "query".

  • Connection — Sebuah objek Opsi.

    Menentukan Koneksi Katalog AWS Glue Data ke titik akhir Snowflake.

  • Schema— UTF -8 string.

    Menentukan skema database Snowflake untuk node Anda untuk digunakan.

  • Table— UTF -8 string.

    Menentukan tabel Snowflake untuk node Anda untuk digunakan.

  • Database— UTF -8 string.

    Menentukan database Snowflake untuk node Anda untuk digunakan.

  • TempDir— UTF -8 string, cocok dengan. Custom string pattern #59

    Saat ini tidak digunakan.

  • IamRole — Sebuah objek Opsi.

    Saat ini tidak digunakan.

  • AdditionalOptions – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, cocok dengan. Custom string pattern #59

    Setiap nilai adalah string UTF -8, cocok dengan. Custom string pattern #59

    Menentukan opsi tambahan diteruskan ke konektor Snowflake. Jika opsi ditentukan di tempat lain di node ini, ini akan diutamakan.

  • SampleQuery— UTF -8 string.

    Sebuah SQL string yang digunakan untuk mengambil data dengan query sourcetype.

  • PreAction— UTF -8 string.

    SQLString berjalan sebelum konektor Snowflake melakukan tindakan standarnya.

  • PostAction— UTF -8 string.

    SQLString berjalan setelah konektor Snowflake melakukan tindakan standarnya.

  • Action— UTF -8 string.

    Menentukan tindakan apa yang harus diambil saat menulis ke tabel dengan data yang sudah ada sebelumnya. Nilai yang valid: append,merge,truncate,drop.

  • Upsert – Boolean.

    Digunakan saat Actionappend. Menentukan perilaku resolusi ketika baris sudah ada. Jika benar, baris yang sudah ada sebelumnya akan diperbarui. Jika salah, baris-baris itu akan dimasukkan.

  • MergeAction— UTF -8 string, cocok dengan. Custom string pattern #58

    Menentukan tindakan gabungan. Nilai-nilai yang valid: simple, custom. Jika sederhana, perilaku gabungan didefinisikan oleh MergeWhenMatched dan MergeWhenNotMatched. Jika kustom, ditentukan olehMergeClause.

  • MergeWhenMatched— UTF -8 string, cocok dengan. Custom string pattern #58

    Menentukan cara menyelesaikan catatan yang cocok dengan data yang sudah ada sebelumnya saat menggabungkan. Nilai-nilai yang valid: update, delete.

  • MergeWhenNotMatched— UTF -8 string, cocok dengan. Custom string pattern #58

    Menentukan cara memproses catatan yang tidak cocok dengan data yang sudah ada sebelumnya saat menggabungkan. Nilai-nilai yang valid: insert, none.

  • MergeClause— UTF -8 string.

    SQLPernyataan yang menentukan perilaku penggabungan kustom.

  • StagingTable— UTF -8 string.

    Nama tabel pementasan yang digunakan saat melakukan merge atau meningkatkan tindakan. append Data ditulis ke tabel ini, kemudian dipindahkan ke table oleh postaction yang dihasilkan.

  • SelectedColumns – Susunan objek Opsi.

    Menentukan kolom digabungkan untuk mengidentifikasi catatan saat mendeteksi kecocokan untuk penggabungan dan upserts. Daftar struktur denganvalue, label dan description kunci. Setiap struktur menggambarkan kolom.

  • AutoPushdown – Boolean.

    Menentukan apakah permintaan otomatis pushdown diaktifkan. Jika pushdown diaktifkan, maka ketika kueri dijalankan di Spark, jika bagian dari kueri dapat “didorong ke bawah” ke server Snowflake, itu didorong ke bawah. Ini meningkatkan kinerja beberapa kueri.

  • TableSchema – Susunan objek Opsi.

    Secara manual mendefinisikan skema target untuk node. Daftar struktur denganvalue, label dan description kunci. Setiap struktur mendefinisikan kolom.

SnowflakeSource struktur

Menentukan sumber data Snowflake.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama sumber data Snowflake.

  • DataWajib: Sebuah objek SnowflakeNodeData.

    Konfigurasi untuk sumber data Snowflake.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema yang ditentukan pengguna untuk data output Anda.

SnowflakeTarget struktur

Menentukan target Snowflake.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama target Snowflake.

  • DataWajib: Sebuah objek SnowflakeNodeData.

    Menentukan data dari node target Snowflake.

  • Inputs— Array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

ConnectorDataSource struktur

Menentukan sumber yang dihasilkan dengan pilihan koneksi standar.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama simpul sumber ini.

  • ConnectionType- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    ItuconnectionType, sebagaimana disediakan untuk AWS Glue perpustakaan yang mendasarinya. Tipe node ini mendukung jenis koneksi berikut:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8.

    Setiap nilai adalah string UTF -8.

    Peta yang menentukan opsi koneksi untuk node. Anda dapat menemukan opsi koneksi standar untuk jenis koneksi yang sesuai di bagian Parameter koneksi AWS Glue dokumentasi.

  • OutputSchemas – Susunan objek GlueSchema.

    Menentukan skema data untuk sumber ini.

ConnectorDataTarget struktur

Menentukan target yang dihasilkan dengan pilihan koneksi standar.

Bidang
  • Name- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #61

    Nama node target ini.

  • ConnectionType- Diperlukan: UTF -8 string, cocok dengan. Custom string pattern #59

    ItuconnectionType, sebagaimana disediakan untuk AWS Glue perpustakaan yang mendasarinya. Tipe node ini mendukung jenis koneksi berikut:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataWajib: Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8.

    Setiap nilai adalah string UTF -8.

    Peta yang menentukan opsi koneksi untuk node. Anda dapat menemukan opsi koneksi standar untuk jenis koneksi yang sesuai di bagian Parameter koneksi AWS Glue dokumentasi.

  • Inputs— Array UTF -8 string, tidak kurang dari 1 atau lebih dari 1 string.

    Node yang merupakan input ke target data.

RecipeStep struktur

Langkah resep yang digunakan dalam simpul resep persiapan data AWS Glue Studio.

Bidang
  • ActionWajib: Sebuah objek RecipeAction.

    Tindakan transformasi langkah resep.

  • ConditionExpressions – Susunan objek ConditionExpression.

    Ekspresi kondisi untuk langkah resep.

RecipeAction struktur

Tindakan didefinisikan dalam simpul resep persiapan data AWS Glue Studio.

Bidang
  • Operation- Wajib: UTF -8 string, tidak kurang dari 1 atau lebih dari 128 byte panjang, cocok dengan. Custom string pattern #54

    Pengoperasian tindakan resep.

  • Parameters – Susunan peta pasangan nilai kunci.

    Setiap kunci adalah string UTF -8, tidak kurang dari 1 atau lebih dari 128 byte panjang, cocok dengan. Custom string pattern #55

    Setiap nilai adalah string UTF -8, panjangnya tidak kurang dari 1 atau lebih dari 32768 byte.

    Parameter tindakan resep.

ConditionExpression struktur

Ekspresi kondisi didefinisikan dalam simpul resep persiapan data AWS Glue Studio.

Bidang
  • Condition- Wajib: UTF -8 string, tidak kurang dari 1 atau lebih dari 128 byte panjang, cocok dengan. Custom string pattern #54

    Kondisi ekspresi kondisi.

  • Value- UTF -8 string, panjangnya tidak lebih dari 1024 byte.

    Nilai ekspresi kondisi.

  • TargetColumn- Diperlukan: UTF -8 string, panjangnya tidak kurang dari 1 atau lebih dari 1024 byte.

    Kolom target ekspresi kondisi.