Pré-requisitos
-
Uma planilha do Google da qual você gostaria de ler. Você precisará do ID da planilha e do nome da aba da planilha.
Detalhes de entidades e campos do Planilhas Google:
Entidade | Tipo de dado | Operadores compatíveis |
---|---|---|
Planilha | String | N/D (não há suporte para filtros) |
Exemplo
googleSheets_read = glueContext.create_dynamic_frame.from_options(
connection_type="googlesheets",
connection_options={
"connectionName": "connectionName",
"ENTITY_NAME": "{SpreadSheetID}#{SheetTabName}",
"API_VERSION": "v4"
}
Particionamento de consultas
Para o particionamento baseado em registros somente, NUM_PARTITIONS
ser fornecido como opções adicionais do spark se você quiser utilizar a simultaneidade no Spark. Com esse parâmetro, a consulta original seria dividida em NUM_PARTITIONS
subconsultas, que poderiam ser executadas pelas tarefas do Spark simultaneamente.
Exemplo com NUM_PARTITIONS
googlesheets_read = glueContext.create_dynamic_frame.from_options(
connection_type="googlesheets",
connection_options={
"connectionName": "connectionName",
"ENTITY_NAME": "{SpreadSheetID}#{SheetTabName}",
"API_VERSION": "v4",
"NUM_PARTITIONS": "10"
}