Dinamo DBExport DataFormat

Applica uno schema a una tabella DynamoDB per renderla accessibile tramite una query Hive. Utilizzare DynamoDBExportDataFormat con un oggetto HiveCopyActivity e DynamoDBDataNode o con input e output S3DataNode. DynamoDBExportDataFormat ha i seguenti benefici:

Fornisce supporto sia per DynamoDB che per Amazon S3
Consente di filtrare i dati in base a determinate colonne nella query Hive
Esporta tutti gli attributi da DynamoDB anche se hai uno schema sparso

Nota

I tipi DynamoDB Boolean non sono mappati sui tipi Hive Boolean. Tuttavia, è possibile mappare valori interi DynamoDB pari a 0 o 1 su tipi Hive Boolean.

Esempio

L'esempio seguente mostra come usare HiveCopyActivity e DynamoDBExportDataFormat per copiare i dati da una versione DynamoDBDataNode a un'altra, mentre i dati vengono filtrati in base a un timestamp.


{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}

Sintassi

Campi opzionali	Description	Tipo di slot
column	Il nome della colonna con il tipo di dati specificato da ogni campo per i dati descritti da questo nodo di dati. Ex: hostname STRING	Stringa
parent	Padre dell'oggetto corrente da cui saranno ereditati gli slot.	Oggetto di riferimento, ad esempio «parent»: {"ref»:» myBaseObject Id "}

Campi Runtime	Description	Tipo di slot
@version	Versione della pipeline con cui l'oggetto è stato creato.	Stringa

Campi di sistema	Description	Tipo di slot
@error	Errore che descrive il formato oggetto errato	Stringa
@pipelineId	L'id della pipeline a cui appartiene questo oggetto	Stringa
@sphere	La sfera di un oggetto indica la propria posizione nel ciclo di vita: i Component Objects generano Instance Objects che eseguono Attempt Objects	Stringa

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Formato Dynamo DBData

RegEx Formato dei dati