Especificando a localização da tabela e o nível de particionamento - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Especificando a localização da tabela e o nível de particionamento

Por padrão, quando um rastreador define tabelas para dados armazenados no Amazon S3, o rastreador tenta mesclar esquemas e criar tabelas de nível superior (). year=2019 Em alguns casos, você pode esperar que o crawler crie uma tabela para a pasta month=Jan, mas em vez disso, o crawler cria uma partição desde o momento em que uma pasta irmã (month=Mar) tenha sido mesclada na mesma tabela.

A opção de crawler no nível da tabela fornece a flexibilidade de informar ao crawler onde as tabelas estão localizadas e como você deseja que as partições sejam criadas. Quando você especifica um Table level (Nível da tabela), ela é criada nesse nível absoluto a partir do bucket do Amazon S3.

Agrupamento de crawler com nível de tabela especificado como nível dois.

Ao configurar o crawler no console, você pode especificar um valor para a opção Table level (Nível da tabela) do Crawler. O valor deve ser um inteiro positivo que indica o local da tabela (o nível absoluto no conjunto de dados). O nível para a pasta de nível superior é um. Por exemplo, para o caminho mydataset/year/month/day/hour, se o nível for definido como três, a tabela será criada no local mydataset/year/month.

Console
Especificar um nível de tabela na configuração do crawler.
API

Ao configurar o rastreador usando oAPI, defina o Configuration campo com uma representação em cadeia de caracteres do seguinte JSON objeto; por exemplo:

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

Neste exemplo, você define a opção de nível de tabela disponível no console em seu CloudFormation modelo:

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"