Usar formatos de tabela que não sejam do Hive no Amazon Athena para Apache Spark - Amazon Athena

Usar formatos de tabela que não sejam do Hive no Amazon Athena para Apache Spark

Ao trabalhar com sessões e cadernos no Athena para Spark, é possível usar tabelas do Linux Foundation Delta Lake, do Apache Hudi e do Apache Iceberg, além das tabelas do Apache Hive.

Considerações e limitações

Ao usar formatos de tabela que não sejam do Apache Hive com o Athena para Spark, considere os seguintes pontos:

  • Além do Apache Hive, somente um formato de tabela por caderno é compatível. Para usar vários formatos de tabela no Athena para Spark, crie um caderno separado para cada formato de tabela. Para obter informações sobre como criar cadernos no Athena para Spark, consulte Como criar seu próprio caderno.

  • Os formatos de tabela Delta Lake, Hudi e Iceberg foram testados no Athena para Spark usando o AWS Glue como o metastore. Talvez seja possível usar outros metastores, mas não há suporte para esse uso atualmente.

  • Para usar os outros formatos de tabela, substitua a propriedade spark_catalog padrão, conforme indicado no console do Athena e nesta documentação. Esses catálogos que não são do Hive podem ler tabelas do Hive, além de seus próprios formatos de tabela.

Versões de tabela

A tabela a seguir mostra as versões de tabela que não são do Hive compatíveis com o Amazon Athena para Apache Spark.

Formato da tabela Versão com suporte
Apache Iceberg 1.2.1
Apache Hudi 0.13
Linux Foundation Delta Lake 2.0.2

No Athena para Spark, esses arquivos de formato de tabela .jar e suas dependências são carregados no caminho de classe dos drivers e executores do Spark.

Para uma postagem no blog do AWS Big Data que mostra como trabalhar com os formatos de tabela Iceberg, Hudi e Delta Lake usando o Spark SQL nos notebooks do Amazon Athena, consulte Use Amazon Athena with Spark SQL for your open-source transactional table formats.