Tablas de Apache Iceberg en AWS Clean Rooms
Apache Iceberg es un formato de tabla de código abierto para lagos de datos. AWS Clean Rooms puede utilizar las estadísticas almacenadas en los metadatos de Apache Iceberg para optimizar los planes de consulta y reducir los escaneos de archivos durante el procesamiento de las consultas en sala limpia. Para obtener más información, consulte la documentación de Apache Iceberg
Tenga en cuenta lo siguiente cuando utilice tablas de AWS Clean Rooms con tablas de Iceberg:
-
Solo tablas dentro de AWS Glue Data Catalog: las tablas de Apache Iceberg se deben definir en AWS Glue Data Catalog en función de la implementación del catálogo Glue de código abierto
. -
Formato de archivo Parquet: AWS Clean Rooms solo admite tablas de Iceberg en formato de archivo de datos Parquet.
-
Compresión GZIP y Snappy: AWS Clean Rooms admite Parquet con compresión GZIP y Snappy.
-
Versiones de Iceberg: AWS Clean Rooms permite ejecutar consultas en tablas Iceberg de las versiones 1 y 2.
-
Particiones: no es necesario que añada particiones manualmente para las tablas de Apache Iceberg en AWS Glue. AWS Clean Rooms detecta automáticamente las nuevas particiones en las tablas Apache Iceberg y no es necesaria ninguna operación manual para actualizar las particiones en la definición de tabla. Las particiones de Iceberg aparecen como columnas normales en el esquema de tabla de AWS Clean Rooms, y no por separado como una clave de partición en el esquema de la tabla configurada.
-
Limitaciones
-
Solo tablas de Iceberg nuevas
No se admiten las tablas de Apache Iceberg convertidas a partir de tablas de Apache Parquet.
-
Consultas de viaje en el tiempo
AWS Clean Rooms no admite consultas de viaje en el tiempo con tablas Apache Iceberg.
-
Versión 2 del motor Athena
No se admiten las tablas de Iceberg creadas con la versión 2 del motor Athena.
-
Formatos de archivo
No se admiten los formatos archivo Avro ni ORC (Optimized Row Columnar).
-
Compresión
No se admite la compresión Zstandard (Zstd) para Parquet.
-
Tipos de datos admitidos para las tablas de Iceberg
AWS Clean Rooms puede consultar tablas de Iceberg que contengan los siguientes tipos de datos:
-
boolean
-
date
-
decimal
-
double
-
float
-
int
-
list
-
long
-
map
-
string
-
struct
-
timestamp without time zone
Para obtener más información sobre los tipos de datos de Iceberg, consulte los esquemas para Iceberg