Crear un esquema único para cada ruta de inclusión de Amazon S3 - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Crear un esquema único para cada ruta de inclusión de Amazon S3

De forma predeterminada, cuando un rastreador define tablas para los datos almacenados en Amazon S3, tiene en cuenta la compatibilidad y el esquema de los datos por igual. Los factores de compatibilidad de datos que tiene en cuenta incluyen si los datos tienen el mismo formato (por ejemplo,JSON), el mismo tipo de compresión (por ejemplo,GZIP), la estructura de la ruta de Amazon S3 y otros atributos de los datos. La similitud de los esquemas es una medida de qué tan similares son los esquemas de objetos de Amazon S3 independientes.

Puede configurar un rastreador en CombineCompatibleSchemas en una definición de tabla común cuando sea posible. Con esta opción, el rastreador sigue teniendo en cuenta la compatibilidad de los datos, pero pasa por alto la similitud de los esquemas específicos al evaluar objetos de Amazon S3 en la ruta de inclusión especificada.

Si configura el rastreador en la consola, para combinar los esquemas, seleccione la opción del rastreador Crear un solo esquema para cada ruta de S3.

Al configurar el rastreador medianteAPI, defina la siguiente opción de configuración:

  • Defina el Configuration campo con una cadena que represente el siguiente JSON objeto en el rastreadorAPI; por ejemplo:

    { "Version": 1.0, "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" } }

Para ayudar a ilustrar esta opción, supongamos que define un rastreador con una ruta de inclusión s3://bucket/table1/. Cuando el rastreador se ejecuta, encuentra dos JSON archivos con las siguientes características:

  • Archivo 1 S3://bucket/table1/year=2017/data1.json

  • Contenido del archivo: {“A”: 1, “B”: 2}

  • Esquema: A:int, B:int

  • Archivo 2 S3://bucket/table1/year=2018/data2.json

  • Contenido del archivo: {“C”: 3, “D”: 4}

  • Esquema: C: int, D: int

De forma predeterminada, el rastreador crea dos tablas, llamadas year_2017 y year_2018, ya que los esquemas no son lo suficientemente similares. Sin embargo, si la opción Crear un solo esquema para cada ruta de S3 está seleccionada y los datos son compatibles, el rastreador crea una tabla. La tabla tiene el esquema A:int,B:int,C:int,D:int y partitionKey year:string.