ynamoDBDataFormato D

Applica uno schema a una tabella DynamoDB per renderla accessibile tramite una query Hive. DynamoDBDataFormatviene utilizzato con un HiveActivity oggetto e un DynamoDBDataNode input e output. DynamoDBDataFormatrichiede che tu specifichi tutte le colonne nella tua query Hive. Per una maggiore flessibilità nello specificare determinate colonne in una query Hive o nel supporto di Amazon S3, consulta. D ynamoDBExport DataFormat

Nota

I tipi DynamoDB Boolean non sono mappati sui tipi Hive Boolean. Tuttavia, è possibile mappare valori interi DynamoDB pari a 0 o 1 su tipi Hive Boolean.

Esempio

L'esempio seguente mostra come usare DynamoDBDataFormat per assegnare uno schema a un input DynamoDBDataNode, che consente a un oggetto HiveActivity di accedere ai dati in base alle colonne denominate e copiare i dati in un output DynamoDBDataNode.


{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}

Sintassi

Campi opzionali	Descrizione	Tipo di slot
column	Il nome della colonna con il tipo di dati specificato da ogni campo per i dati descritti da questo nodo di dati. Ad esempio `hostname STRING`. Per più valori, utilizzare i nomi delle colonne e i tipi di dati separati da uno spazio.	Stringa
parent	Padre dell'oggetto corrente da cui saranno ereditati gli slot.	Oggetto di riferimento, ad esempio «parent»: {"ref»:» myBaseObject Id "}

Campi Runtime	Descrizione	Tipo di slot
@version	La versione della pipeline utilizzata per creare l'oggetto.	Stringa

Campi di sistema	Descrizione	Tipo di slot
@error	Errore che descrive l'oggetto con il formato errato.	Stringa
@pipelineId	L'id della pipeline a cui appartiene questo oggetto.	Stringa
@sphere	La sfera di un oggetto indica la propria posizione nel ciclo di vita: i Component Objects generano Instance Objects che eseguono Attempt Objects.	Stringa

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Formato di dati personalizzato

D ynamoDBExport DataFormat