As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configuração do Metastore para Serverless EMR
Uma metastore do Hive é um local centralizado que armazena informações estruturais sobre tabelas, incluindo esquemas, nomes de partições e tipos de dados. Com o EMR Serverless, você pode manter esses metadados da tabela em um metastore que tenha acesso aos seus trabalhos.
Você tem duas opções para uma metastore do Hive:
-
Catálogo de dados do AWS Glue
-
Uma metastore externa do Apache Hive
Usando o AWS Glue Data Catalog como metastore
Você pode configurar suas tarefas do Spark e do Hive para usar o AWS Glue Data Catalog como seu metastore. Recomendamos essa configuração quando precisar de uma metastore persistente ou de uma metastore compartilhada por diferentes aplicações, serviços, aplicações ou Contas da AWS. Para obter mais informações sobre o catálogo de dados, consulte Preenchendo o catálogo de dados do AWS Glue. Para obter informações sobre os preços do AWS Glue, consulte Preços do AWS Glue
Você pode configurar sua tarefa EMR sem servidor para usar o AWS Glue Data Catalog no Conta da AWS mesmo aplicativo ou em um diferente. Conta da AWS
Configurar o catálogo de dados AWS Glue
Para configurar o Catálogo de Dados, escolha o tipo de aplicativo EMR sem servidor que você deseja usar.
Configure o acesso entre contas para EMR Serverless e Glue Data Catalog AWS
Para configurar o acesso entre contas para o EMR Serverless, você deve primeiro fazer login no seguinte: Contas da AWS
-
AccountA
— E Conta da AWS onde você criou um aplicativo EMR sem servidor. -
AccountB
— Um Conta da AWS que contém um AWS Glue Data Catalog que você deseja que suas execuções EMR sem servidor acessem.
-
Certifique-se de que um administrador ou outra identidade autorizada em
AccountB
anexe uma política de recursos ao Data Catalog emAccountB
. Essa política concede permissões específicas doAccountA
entre contas para realizar operações em recursos no catálogo doAccountB
.{ "Version" : "2012-10-17", "Statement" : [ { "Effect" : "Allow", "Principal": { "AWS": [ "arn:aws:iam::
accountA
:role/job-runtime-role-A" ]}, "Action" : [ "glue:GetDatabase", "glue:CreateDatabase", "glue:GetDataBases", "glue:CreateTable", "glue:GetTable", "glue:UpdateTable", "glue:DeleteTable", "glue:GetTables", "glue:GetPartition", "glue:GetPartitions", "glue:CreatePartition", "glue:BatchCreatePartition", "glue:GetUserDefinedFunctions" ], "Resource": ["arn:aws:glue:region:AccountB
:catalog"] } ] } -
Adicione uma IAM política à função de tempo de execução do trabalho EMR sem servidor
AccountA
para que essa função possa acessar os recursos do Catálogo de Dados em.AccountB
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:GetDatabase", "glue:CreateDatabase", "glue:GetDataBases", "glue:CreateTable", "glue:GetTable", "glue:UpdateTable", "glue:DeleteTable", "glue:GetTables", "glue:GetPartition", "glue:GetPartitions", "glue:CreatePartition", "glue:BatchCreatePartition", "glue:GetUserDefinedFunctions" ], "Resource": ["arn:aws:glue:
region:AccountB
:catalog"] } ] } -
Inicie a execução do trabalho. Essa etapa é um pouco diferente, dependendo
AccountA
do tipo de aplicativo EMR sem servidor.
Considerações ao usar o AWS Glue Data Catalog
Você pode adicionar auxiliares JARs ADD JAR
em seus scripts do Hive. Para considerações adicionais, consulte Considerações ao usar o AWS Glue Data Catalog.