Usar o AWS Serverless Application Repository para implementar um conector de fonte de dados do Hive - Amazon Athena

Usar o AWS Serverless Application Repository para implementar um conector de fonte de dados do Hive

Para implantar um conector de origem dos dados do Athena para Hive, você pode usar o AWS Serverless Application Repository em vez de começar com o console do Athena. Use AWS Serverless Application Repository para encontrar o conector que deseja usar, forneça os parâmetros que o conector exige e implante o conector em sua conta. Depois de implantar o conector, você usa o console do Athena para disponibilizar a origem dos dados para o Athena.

Como usar o AWS Serverless Application Repository para implantar um conector de fonte de dados do Hive em sua conta
  1. Faça login no AWS Management Console e abra o Repositório de aplicativos sem servidor.

  2. No painel de navegação, escolha Aplicativos disponíveis.

  3. Selecione a opção Show apps that create custom IAM roles or resource policies (Mostrar aplicações que criam funções personalizadas do IAM ou políticas de recursos).

  4. Na caixa de pesquisa, insira Hive. Os conectores exibidos incluem estes dois:

    • AthenaHiveMetastoreFunction: arquivo Uber .jar da função do Lambda.

    • AthenaHiveMetastoreFunctionWithLayer: a camada do Lambda e o arquivo .jar fino da função do Lambda.

    Os dois aplicativos têm a mesma funcionalidade e diferem apenas em sua implementação. É possível usar qualquer um para criar uma função do Lambda que conecta o Athena ao seu metastore do Hive.

  5. Escolha o nome do conector que você deseja usar. Este tutorial usa AthenaHiveMetastoreFunction.

    Escolha o nome do conector de origem dos dados do Athena para Hive.
  6. Em Application settings (Configurações da aplicação), insira os parâmetros para a função do Lambda.

    • LambdaFuncName: especifique um nome para a função. Por exemplo, myHiveMetastore.

    • SpillLocation: especifique um local do Amazon S3 nessa conta para armazenar os metadados de vazamento, caso o tamanho da resposta da função do Lambda exceda 4 MB.

    • HMSUris: insira o URI do host do metastore do Hive que usa o protocolo Thrift na porta 9083. Use a sintaxe thrift://<host_name>:9083.

    • LambdaMemory: especifique um valor entre 128 MB e 3008 MB. A função do Lambda aloca os ciclos de CPU proporcionalmente à quantidade de memória que você configura. O padrão é 1024.

    • LambdaTimeout: especifique o tempo máximo de execução de invocação do Lambda permitido em segundos de 1 a 900 (900 segundos são 15 minutos). O padrão é 300 segundos (5 minutos).

    • VPCSecurityGroupIds: insira uma lista separada por vírgulas de IDs de grupo de segurança da VPC para o metastore do Hive.

    • VPCSubnetIds: insira uma lista separada por vírgulas de IDs de sub-rede da VPC para o metastore do Hive.

  7. Na parte inferior direita da página Application details (Detalhes da aplicação), selecione I acknowledge that this app creates custom IAM roles (Eu reconheço que esta aplicação cria funções personalizadas do IAM) e escolha Deploy (Implantar).

Neste ponto, você pode configurar o Athena para usar sua função do Lambda para se conectar ao metastore do Hive. Para obter as etapas, consulte Configurar o Athena para usar um conector de metastore do Hive implantado.