Estructura de archivos Campos de canalización Campos definidos por el usuario

Sintaxis de los archivos de definición de la canalización

Las instrucciones de esta sección sirven para trabajar manualmente con los archivos de definición de canalización mediante la interfaz de línea de AWS Data Pipeline comandos (CLI). Esta es una alternativa al diseño de una canalización de forma interactiva mediante la AWS Data Pipeline consola.

Puede crear manualmente archivos de definición de canalización mediante cualquier editor de texto que permita guardar archivos con el formato de archivo UTF-8 y enviar los archivos mediante la interfaz de línea de AWS Data Pipeline comandos.

AWS Data Pipeline también admite una variedad de expresiones y funciones complejas en las definiciones de canalización. Para obtener más información, consulte Expresiones y funciones de canalizaciones.

Estructura de archivos

El primer paso en la creación de canalizaciones es componer objetos de definición de canalización en un archivo de definición de canalización. El siguiente ejemplo ilustra la estructura general de un archivo de definición de canalización. Este archivo define dos objetos, delimitados por "{" y "}" y separados por una coma.

En el siguiente ejemplo, el primer objeto define dos pares de nombre-valor, conocidos como campos. El segundo objeto define tres campos.


{
  "objects" : [
    {
       "name1" : "value1",
       "name2" : "value2"
    },
    {
       "name1" : "value3",
       "name3" : "value4",
       "name4" : "value5"
    }
  ]
}

Al crear un archivo de definición de canalización, debe seleccionar los tipos de objetos de canalización que necesite, agregarlos al archivo de definición de canalización y, a continuación, agregar los campos correspondientes. Para obtener más información acerca de los objetos de canalización, consulte Referencia de objeto de canalización.

Por ejemplo, podría crear un objeto de definición de canalización para un nodo de datos de entrada y otro para el nodo de datos de salida. A continuación, cree otro objeto de definición de canalización para una actividad, como procesar los datos de entrada con Amazon EMR.

Campos de canalización

Cuando sepa qué tipos de objetos incluir en el archivo de definición de canalización, agregue campos a la definición de cada objeto de canalización. Los nombres de campo se encierran entre comillas y están separados de los valores de campo por un espacio, un signo de dos puntos y un espacio, como se muestra en el siguiente ejemplo.


"name" : "value"

El valor del campo puede ser una cadena de texto, una referencia a otro objeto, una llamada de función, una expresión o una lista ordenada de cualquiera de los tipos anteriores. Para obtener más información sobre los tipos de datos que se pueden utilizar para los valores de campo, consulte Tipos de datos simples. Para obtener más información acerca de las funciones que puede utilizar para evaluar los valores de campo, consulte Evaluación de expresiones.

Los campos están limitados a 2048 caracteres. Los objetos pueden tener un tamaño de 20 KB, lo que significa que no se puede agregar muchos campos grandes a un objeto.

Cada objeto de canalización debe contener los siguientes campos: id y type, tal y como se muestra en el siguiente ejemplo. También es posible que se necesiten otros campos, en función del tipo de objeto. Seleccione un valor para id que tenga sentido para usted y que sea único dentro de la definición de la canalización. El valor de type especifica el tipo de objeto. Especifique uno de los tipos de objeto de definición de canalización compatibles, que aparecen en el tema Referencia de objeto de canalización.


{
  "id": "MyCopyToS3",
  "type": "CopyActivity"
}

Para obtener más información acerca de los campos obligatorios y opcionales para cada objeto, consulte la documentación del objeto.

Para incluir campos de un objeto en otro objeto, utilice el campo parent con una referencia al objeto. Por ejemplo, el objeto "B" incluye sus campos, "B1" y "B2", además de los campos de objeto "A", "A1" y "A2".


{
  "id" : "A",
  "A1" : "value",
  "A2" : "value"
},
{
  "id" : "B",
  "parent" : {"ref" : "A"},
  "B1" : "value",
  "B2" : "value"
}

Puede definir campos comunes en un objeto con el ID "Default". Estos campos se incluyen automáticamente en todos los objetos del archivo de definición de canalización que no establezcan de forma explícita su campo parent para hacer referencia a otro objeto.


{
  "id" : "Default",
  "onFail" : {"ref" : "FailureNotification"},
  "maximumRetries" : "3",
  "workerGroup" : "myWorkerGroup"
}

Campos definidos por el usuario

Puede crear campos personalizados o definidos por el usuario en los componentes de la canalización y hacer referencia a los mismos con expresiones. El siguiente ejemplo muestra un campo personalizado denominado myCustomField y my_customFieldReference agregado a un DataNode objeto S3:


{
  "id": "S3DataInput",
  "type": "S3DataNode",
  "schedule": {"ref": "TheSchedule"},
  "filePath": "s3://bucket_name",
  "myCustomField": "This is a custom value in a custom field.",
  "my_customFieldReference": {"ref":"AnotherPipelineComponent"}
  },

Un campo definido por el usuario debe tener un nombre precedido por la palabra "my" en minúsculas, seguida de una letra mayúscula o un guion bajo. Además, un campo definido por el usuario puede ser un valor de cadena como en el ejemplo myCustomField anterior o una referencia a otro componente como en el ejemplo my_customFieldReference anterior.

nota

En los campos definidos por el usuario, AWS Data Pipeline solo comprueba las referencias válidas a otros componentes de la canalización, no los valores de cadenas de campos personalizados que añadas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Errores en cascada y repeticiones de ejecuciones

Uso de la API