As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configuração da metastore para EMR Sem Servidor
Uma metastore do Hive é um local centralizado que armazena informações estruturais sobre tabelas, incluindo esquemas, nomes de partições e tipos de dados. Com o EMR Sem Servidor, você pode manter esses metadados da tabela em uma metastore que tenha acesso aos seus trabalhos.
Você tem duas opções para uma metastore do Hive:
-
Catálogo de dados do AWS Glue
-
Uma metastore externa do Apache Hive
Usando o AWS Glue Data Catalog como metastore
Você pode configurar suas tarefas do Spark e do Hive para usar o AWS Glue Data Catalog como seu metastore. Recomendamos essa configuração quando precisar de uma metastore persistente ou de uma metastore compartilhada por diferentes aplicações, serviços, aplicações ou Contas da AWS. Para obter mais informações sobre o catálogo de dados, consulte Preenchendo o catálogo de dados do AWS Glue. Para obter informações sobre os preços do AWS Glue, consulte Preços do AWS Glue
Você pode configurar sua tarefa do EMR Serverless para usar o AWS Glue Data Catalog no Conta da AWS mesmo aplicativo ou em um diferente. Conta da AWS
Configurar o catálogo de dados AWS Glue
Para configurar o Data Catalog, escolha o tipo de aplicação do EMR Sem Servidor que você deseja usar.
Configure o acesso entre contas para o EMR Serverless AWS e o Glue Data Catalog
Para configurar o acesso entre contas para o EMR Serverless, você deve primeiro fazer login no seguinte: Contas da AWS
-
AccountA
— E Conta da AWS onde você criou um aplicativo EMR Serverless. -
AccountB
— Um Conta da AWS que contém um catálogo de dados do AWS Glue que você deseja que suas execuções do EMR Serverless acessem.
-
Certifique-se de que um administrador ou outra identidade autorizada em
AccountB
anexe uma política de recursos ao Data Catalog emAccountB
. Essa política concede permissões específicas doAccountA
entre contas para realizar operações em recursos no catálogo doAccountB
.{ "Version" : "2012-10-17", "Statement" : [ { "Effect" : "Allow", "Principal": { "AWS": [ "arn:aws:iam::
accountA
:role/job-runtime-role-A" ]}, "Action" : [ "glue:GetDatabase", "glue:CreateDatabase", "glue:GetDataBases", "glue:CreateTable", "glue:GetTable", "glue:UpdateTable", "glue:DeleteTable", "glue:GetTables", "glue:GetPartition", "glue:GetPartitions", "glue:CreatePartition", "glue:BatchCreatePartition", "glue:GetUserDefinedFunctions" ], "Resource": ["arn:aws:glue:region:AccountB
:catalog"] } ] } -
Adicione uma política do IAM ao perfil de runtime de trabalhos do EMR Sem Servidor em
AccountA
para que esse perfil possa acessar os recursos do Data Catalog emAccountB
.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:GetDatabase", "glue:CreateDatabase", "glue:GetDataBases", "glue:CreateTable", "glue:GetTable", "glue:UpdateTable", "glue:DeleteTable", "glue:GetTables", "glue:GetPartition", "glue:GetPartitions", "glue:CreatePartition", "glue:BatchCreatePartition", "glue:GetUserDefinedFunctions" ], "Resource": ["arn:aws:glue:
region:AccountB
:catalog"] } ] } -
Inicie a execução do trabalho. Essa etapa é um pouco diferente dependendo do tipo de aplicação do EMR Sem Servidor do
AccountA
.
Considerações ao usar o AWS Glue Data Catalog
Você pode adicionar auxiliares JARs ADD JAR
em seus scripts do Hive. Para considerações adicionais, consulte Considerações ao usar o AWS Glue Data Catalog.