Conceitos básicos da AWS Glue Data Catalog
O AWS Glue Data Catalog é seu armazenamento persistente de metadados técnicos. É um serviço gerenciado que você pode usar para armazenar, anotar e compartilhar metadados na Nuvem AWS. Para ter mais informações, consulte AWS Glue Data Catalog.
O console do AWS Glue e algumas interfaces do usuário foram atualizadas recentemente. |
Visão geral
É possível usar este tutorial para criar o primeiro Catálogo de dados AWS Glue, que usa um bucket do Amazon S3 como origem de dados.
Neste tutorial, você fará o seguinte usando o console do AWS Glue:
-
Criar um banco de dados.
-
Criar uma tabela
-
Usar um bucket do Amazon S3 como fonte de dados
Após concluir essas etapas, você terá usado com êxito um bucket do Amazon S3 como fonte de dados para preencher o Catálogo de dado AWS Glue.
Etapa 1: criar um banco de dados
Para começar, faça login no AWS Management Console e abra o console do AWS Glue
Para criar um banco de dados usando o console do AWS Glue:
-
No console do AWS Glue, escolha Databases (Bancos de dados) em Data catalog (Catálogo de dados) no menu à esquerda.
-
Selecione Adicionar banco de dados.
-
Na página Criar um banco de dados, insira um nome para o banco de dados. Na seção Localização - opcional, defina a localização do URI para uso pelos clientes do catálogo de dados. Se não souber, você poderá continuar com a criação do banco de dados.
-
(Opcional). Insira uma descrição para o banco de dados.
-
Selecione Criar banco de dados.
Parabéns, você acabou de configurar seu primeiro banco de dados usando o console AWS Glue. Seu novo banco de dados aparecerá na lista de bancos de dados disponíveis. Você pode editar o banco de dados escolhendo o nome do banco de dados no painel Bancos de dados.
Próximas etapas
Outras formas de criar um banco de dados:
Você acabou de criar um banco de dados usando o console AWS Glue, mas existem outras maneiras de criar um banco de dados:
-
Você pode usar crawlers para criar um banco de dados e tabelas para você automaticamente. Para configurar um banco de dados usando crawlers, consulteTrabalhar com crawlers no console AWS Glue.
-
Você pode usar os modelos AWS CloudFormation. Consulte Criar recursos AWS Glue usando modelos AWS Glue Data Catalog.
-
Você também pode criar um banco de dados usando as AWS Glueoperações de API do banco de dados.
Para criar um banco de dados usando a operação
create
, estruture a solicitação, incluindo os parâmetrosDatabaseInput
(obrigatórios).Por exemplo:
-
Veja a seguir exemplos de como você pode usar a CLI, Boto3 ou DDL para definir uma tabela com base no mesmo arquivo flight_data.csv do bucket do S3 usado no tutorial.
Para obter mais informações sobre os tipos de dados, estrutura e operações da API do banco de dados, consulte API do banco de dados.
Próximas etapas
Na próxima seção, você criará uma tabela e adicionará essa tabela ao banco de dados.
Você também pode explorar as configurações e permissões do seu Catálogo de dados. Consulte Trabalhar com configurações de catálogo de dados no console AWS Glue.
Etapa 2. Criar uma tabela
Nesta etapa, você cria uma tabela usando o console AWS Glue.
-
No console AWS Glue, escolha Tables (Tabelas) no menu à esquerda.
-
Escolha Add table (Adicionar tabela).
-
Defina as propriedades da tabela inserindo um nome para a tabela em Table details (Detalhes da tabela).
-
No seção Databases (Banco de dados), escolha no menu suspenso o banco de dados que criou na Etapa 1.
-
Na seção Add a data store (Adicionar um datastore), a opção S3 será selecionada por padrão como o tipo de fonte.
-
Em Data is located in (Dados localizados em), escolha Specified path in another account (Caminho especificado em outra conta).
-
Copie e cole o caminho para o campo de entrada Include path (Incluir caminho):
s3://crawler-public-us-west-2/flight/2016/csv/
-
Na seção Data format (Formato de dados), para Classification (Classificação), escolha CSV e para Delimiter (Delimitador), escolha comma (,) (vírgula [,]). Escolha Próximo.
-
Será solicitado que você defina um esquema. O esquema define a estrutura e o formato de um registro de dados. Selecione Add column (Adicionar coluna). (Para obter mais informações, consulte Schema registries (Registros de esquema).
-
Especifique as propriedades da coluna:
-
Insira um nome de coluna.
-
Para o Column type (Tipo de coluna), 'string' já está selecionada por padrão.
-
Para o Column number (Número da coluna), 'string' já está selecionada por padrão.
-
Escolha Adicionar.
-
-
Você é solicitado a adicionar índices de partição. Isso é opcional. Para pular esta etapa, escolha, escolha Next (Próximo).
-
Um resumo das propriedades da tabela é exibido. Se tudo estiver conforme o esperado, escolha Criar. Caso contrário, escolha Voltar e faça edições conforme for necessário.
Parabéns, você criou uma tabela manualmente e a associou a um banco de dados. Sua tabela recém-criada aparecerá no painel Tabelas. No painel, você pode modificar e gerenciar suas tabelas.
Para obter mais informações, consulte Working with Tables (Trabalhar com tabelas) no console AWS Glue.
Next steps (Próximas etapas)
Next steps (Próximas etapas)
Agora que o Catálogo de dados está preenchido, você pode começar a criar trabalhos no AWS Glue. Consulte Criar trabalhos de ETL visual com o AWS Glue Studio.
Além de usar o console, há outras maneiras de definir tabelas no Catálogo de dados, incluindo:
-
Usar o AWS CLI, Boto3 ou linguagem de definição de dados (DDL)
-
Veja a seguir exemplos de como você pode usar a CLI, Boto3 ou DDL para definir uma tabela com base no mesmo arquivo flight_data.csv do bucket do S3 usado no tutorial.
Consulte a documentação sobre como estruturar um comando AWS CLI. O exemplo de CLI contém a sintaxe JSON para o valor 'aws glue create-table --table-input'.