Tipi di estensione PySpark - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Tipi di estensione PySpark

Tipi usati dalle estensioni PySpark AWS Glue.

DataType

Classe di base per gli altri tipi AWS Glue.

__init__(properties={})
  • properties: proprietà del tipo di dati (opzionale).

typeName(cls)

Restituisce il tipo per la classe di tipo AWS Glue (ovvero il nome della classe senza "Type" nella parte finale).

  • cls: un'istanza di classe AWS Glue derivata da DataType.

jsonValue( )

Restituisce un oggetto JSON contenente il tipo di dati e le proprietà della classe:

{ "dataType": typeName, "properties": properties }

AtomicType e derivate semplici

Eredita dalla classe DataType e la estende e funge da classe di base per tutti i tipi di dati atomici AWS Glue.

fromJsonValue(cls, json_value)

Inizializza un'istanza di classe con valori da un oggetto JSON.

  • cls: un'istanza di classe di tipo AWS Glue da inizializzare.

  • json_value: l'oggetto JSON dal quale caricare coppie chiave-valore.

I seguenti tipi sono derivate semplici della classe AtomicType:

  • BinaryType: i dati binari.

  • BooleanType: i valori booleani.

  • ByteType: un valore di byte.

  • DateType: un valore datetime.

  • DoubleType: un valore doppio in virgola mobile.

  • IntegerType: un valore intero.

  • LongType: un valore intero lungo.

  • NullType: un valore nullo.

  • ShortType: un valore intero breve.

  • StringType: una stringa di testo.

  • TimestampType: un valore di timestamp (in genere in secondi dal 1/1/1970).

  • UnknownType: un valore di tipo non identificato.

DecimalType(AtomicType)

Eredita la classe AtomicType e la estende per rappresentare un numero decimale (un numero espresso in cifre decimali, opposto ai numeri binari in base 2).

__init__(precision=10, scale=2, properties={})
  • precision: il numero di cifre nel numero decimale (opzionale; il valore predefinito è 10).

  • scale: il numero di cifre alla destra del punto decimale (opzionale; il valore predefinito è 2).

  • properties: le proprietà del numero decimale (opzionale).

EnumType(AtomicType)

Eredita la classe AtomicType e la estende per rappresentare un'enumerazione delle opzioni valide.

__init__(options)
  • options: un elenco delle opzioni enumerate.

 Tipi di raccolta

ArrayType(DataType)

__init__(elementType=UnknownType(), properties={})
  • elementType: il tipo di elementi nella matrice (opzionale; l'impostazione predefinita è UnknownType).

  • properties: proprietà del tipo di matrice (opzionale).

ChoiceType(DataType)

__init__(choices=[], properties={})
  • choices: un elenco di possibili scelte (opzionale).

  • properties: proprietà di queste opzioni (opzionale).

add(new_choice)

Aggiunge una nuova opzione all'elenco di scelte possibili.

  • new_choice: l'opzione da aggiungere all'elenco di scelte possibili.

merge(new_choices)

Unisce un elenco di nuove opzioni con quello esistente.

  • new_choices: un elenco di nuove opzioni da unire con quelle esistenti.

MapType(DataType)

__init__(valueType=UnknownType, properties={})
  • valueType: il tipo di valori nella mappa (opzionale; l'impostazione predefinita è UnknownType).

  • properties: proprietà della mappa (opzionale).

Field(Object)

Consente di creare un oggetto campo al di fuori di un oggetto che deriva da DataType.

__init__(name, dataType, properties={})
  • name: il nome da assegnare al campo.

  • dataType: l'oggetto dal quale creare un campo.

  • properties: proprietà del campo (opzionale).

StructType(DataType)

Definisce una struttura di dati (struct).

__init__(fields=[], properties={})
  • fields: un elenco dei campi (di tipo Field) da includere nella struttura (opzionale).

  • properties: proprietà della struttura (opzionale).

add(field)
  • field: un oggetto di tipo Field da aggiungere alla struttura.

hasField(field)

Restituisce True se questa struttura ha un campo con lo stesso nome, altrimenti False.

  • field: un nome campo o un oggetto di tipo Field di cui viene utilizzato il nome.

getField(field)
  • field: un nome campo o un oggetto di tipo Field di cui viene utilizzato il nome. Se la struttura ha un campo con lo stesso nome, viene restituito.

EntityType(DataType)

__init__(entity, base_type, properties)

Questa classe non è ancora implementata.

 Altri tipi

DataSource(object)

__init__(j_source, sql_ctx, name)
  • j_source: l'origine dei dati.

  • sql_ctx: il contesto SQL.

  • name: il nome data-source.

setFormat(format, **options)

getFrame()

Restituisce un DynamicFrame per l'origine dati.

DataSink(object)

__init__(j_sink, sql_ctx)
  • j_sink: il sink da creare.

  • sql_ctx: il contesto SQL per il sink dei dati.

setFormat(format, **options)

setAccumulableSize(size)
  • size: la dimensione accumulabile da impostare, in byte.

writeFrame(dynamic_frame, info="")
  • dynamic_frame: il DynamicFrame da scrivere.

  • info: informazioni sul DynamicFrame (opzionale).

write(dynamic_frame_or_dfc, info="")

Scrive un DynamicFrame o una DynamicFrameCollection.

  • dynamic_frame_or_dfc: un oggetto DynamicFrame o un oggetto DynamicFrameCollection da scrivere.

  • info: informazioni sulla DynamicFrame o DynamicFrames da scrivere (opzionale).