Dinamo DBExport DataFormat

Aplica un esquema a una tabla de DynamoDB para hacerla accesible mediante una consulta de Hive. Utilice DynamoDBExportDataFormat con un objeto HiveCopyActivity y una entrada y salida DynamoDBDataNode o S3DataNode. DynamoDBExportDataFormat tiene los beneficios siguientes:

Da soporte tanto a DynamoDB como a Amazon S3
Permite filtrar datos por determinadas columnas en su consulta de Hive
Exporta todos los atributos desde DynamoDB, incluso si se tiene un esquema disperso

nota

Los tipos booleanos de DynamoDB no están asignados a los tipos booleanos de Hive. Sin embargo, es posible asignar valores enteros de DynamoDB de 0 o 1 a tipos booleanos de Hive.

Ejemplo

En el siguiente ejemplo se muestra cómo usar HiveCopyActivity y DynamoDBExportDataFormat para copiar datos de un nodo DynamoDBDataNode a otro, mientras se filtra en función de una marca temporal.


{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}

Sintaxis

Campos opcionales	Description (Descripción)	Tipo de slot
columna	Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ej.: hostname STRING	Cadena
parent	Elemento principal del objeto actual del que se heredarán los slots.	Objeto de referencia, por ejemplo, «parent»: {"ref»:» myBaseObject Id "}

Campos de tiempo de ejecución	Description (Descripción)	Tipo de slot
@version	Versión de la canalización con la que se creó el objeto.	Cadena

Campos del sistema	Description (Descripción)	Tipo de slot
@error	Error al describir el objeto mal estructurado.	Cadena
@pipelineId	ID de la canalización a la que pertenece este objeto.	Cadena
@sphere	La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento.	Cadena

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Formato Dynamo DBData

RegEx Formato de datos