PySpark jenis ekstensi - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

PySpark jenis ekstensi

Jenis yang digunakan oleh AWS Glue PySpark ekstensi.

DataType

Kelas dasar untuk jenis Glue AWS yang lain.

__init__(properties={})
  • properties — Properti dari tipe data (opsional).

typeName(cls)

Mengembalikan AWS Glue jenis kelas tipe (yaitu, nama kelas dengan “Type” dihapus dari akhir).

  • cls— Sebuah contoh AWS Glue kelas yang berasal dariDataType.

jsonValue( )

Mengembalikan sebuah objek JSON yang berisi tipe data dan properti kelas:

{ "dataType": typeName, "properties": properties }

AtomicType dan derivatif sederhana

Mewarisi dari dan memperluas DataType kelas, dan berfungsi sebagai kelas dasar untuk semua tipe data AWS Glue atom.

fromJsonValue(cls, json_value)

Menginisialisasi sebuah instans kelas dengan nilai-nilai dari objek JSON.

  • cls- Sebuah contoh kelas AWS Glue tipe untuk menginisialisasi.

  • json_value — Objek JSON tempat untuk memuat pasangan nilai-kunci.

Jenis berikut adalah derivatif sederhana dari kelas AtomicType:

  • BinaryType — Data biner.

  • BooleanType – nilai boolean.

  • ByteType — Nilai byte.

  • DateType — Nilai datetime.

  • DoubleType — Nilai ganda floating-point.

  • IntegerType — Nilai integer.

  • LongType — Nilai integer panjang.

  • NullType — Nilai nol.

  • ShortType — Nilai integer pendek.

  • StringType — String teks.

  • TimestampType — Nilai timestamp (biasanya dalam detik dari 1/1/1970).

  • UnknownType — Nilai dengan tipe tak dikenal.

DecimalType(AtomicType)

Mewarisi dari dan meng-ekstensi kelas AtomicType untuk mewakili angka desimal (angka dinyatakan dalam angka desimal, sebagai lawan dari biner basis-2 angka).

__init__(precision=10, scale=2, properties={})
  • precision — Jumlah digit dalam bilangan desimal (opsional; default-nya adalah 10).

  • scale — Jumlah digit dalam sebelah kanan titik desimal (opsional; default-nya adalah 2).

  • properties — Properti dari bilangan desimal (opsional).

EnumType(AtomicType)

Mewarisi dari dan meng-ekstensi kelas AtomicType untuk mewakili enumerasi pilihan yang valid.

__init__(options)
  • options — Daftar opsi yang dienumerasi.

 jenis koleksi

ArrayType(DataType)

__init__(elementType=UnknownType(), properties={})
  • elementType— Jenis elemen dalam array (opsional; defaultnya adalah UnknownType).

  • properties — Properti array (opsional).

ChoiceType(DataType)

__init__(choices=[], properties={})
  • choices — Daftar pilihan yang mungkin (opsional).

  • properties — Properti dari pilihan-pilihan tersebut (opsional).

add(new_choice)

Menambahkan sebuah pilihan baru ke daftar pilihan yang mungkin.

  • new_choice — Pilihan yang akan ditambahkan ke daftar pilihan yang mungkin.

merge(new_choices)

Menggabungkan daftar pilihan baru dengan daftar pilihan yang ada.

  • new_choices — Daftar pilihan baru yang akan digabungkan dengan pilihan yang ada.

MapType(DataType)

__init__(valueType=UnknownType, properties={})
  • valueType— Jenis nilai di peta (opsional; defaultnya adalah UnknownType).

  • properties — Properti dari peta (opsional).

Field(Object)

Menciptakan sebuah objek bidang dari sebuah objek yang berasal dari DataType.

__init__(name, dataType, properties={})
  • name — Nama yang akan ditetapkan ke bidang.

  • dataType — Objek untuk yang darinya bidang akan dibuat.

  • properties — Properti dari bidang (opsional).

StructType(DataType)

Mendefinisikan sebuah struktur data (struct).

__init__(fields=[], properties={})
  • fields — Daftar bidang (tipe Field) yang akan dimasukkan ke dalam struktur (opsional).

  • properties — Properti struktur (opsional).

add(field)
  • field — Sebuah objek dari tipe Field yang akan ditambahkan ke struktur.

hasField(field)

Mengembalikan True jika struktur ini memiliki bidang dengan nama yang sama, atau False jika tidak.

  • field — Sebuah nama bidang, atau objek dari tipe Field yang namanya digunakan.

getField(field)
  • field — Sebuah nama bidang atau objek dari tipe Field yang namanya digunakan. Jika struktur memiliki bidang dengan nama yang sama, maka ia dikembalikan.

EntityType(DataType)

__init__(entity, base_type, properties)

Kelas ini belum diimplementasikan.

 jenis lainnya

DataSource(objek)

__init__(j_source, sql_ctx, name)
  • j_source — Sumber data.

  • sql_ctx — Konteks SQL.

  • name — Nama sumber data.

setFormat(format, **options)

getFrame()

Mengembalikan DynamicFrame untuk sumber data.

DataSink(objek)

__init__(j_sink, sql_ctx)
  • j_sink — Sink yang akan dibuat.

  • sql_ctx — Konteks SQL untuk data sink.

setFormat(format, **options)

setAccumulableSize(size)
  • size — Ukuran terakumulasi yang akan ditetapkan, dalam byte.

writeFrame(dynamic_frame, info="")
  • dynamic_frameDynamicFrame yang akan ditulis.

  • info — Informasi tentang DynamicFrame (opsional).

write(dynamic_frame_or_dfc, info="")

Menulis DynamicFrame atau DynamicFrameCollection.

  • dynamic_frame_or_dfc — Salah satu objek, objek DynamicFrame atau DynamicFrameCollection yang akan ditulis.

  • info — Informasi tentang DynamicFrame atau DynamicFrames yang akan ditulis (opsional).