As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Apache Iceberg e Lake Formation com a Amazon EMR
As EMR versões 6.15.0 e superiores da Amazon incluem suporte para controle de acesso refinado baseado no Apache Iceberg quando você lê e grava dados AWS Lake Formation com o Spark. SQL A Amazon EMR oferece suporte ao controle de acesso em nível de tabela, linha, coluna e célula com o Apache Iceberg. Com esse recurso, você pode executar consultas de instantâneos em copy-on-write tabelas para consultar o instantâneo mais recente da tabela em um determinado instante de confirmação ou compactação.
Se você quiser usar o formato Iceberg, defina as configurações a seguir. Substitua
pelo caminho do Amazon S3 onde suas tabelas do Iceberg estão localizadas e os espaços reservados para a região e o ID da conta por seus próprios valores.DB_LOCATION
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.iceberg_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.iceberg_catalog.warehouse=s3://
DB_LOCATION
--conf spark.sql.catalog.iceberg_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.iceberg_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.iceberg_catalog.glue.account-id=ACCOUNT_ID
--conf spark.sql.catalog.iceberg_catalog.glue.id=ACCOUNT_ID
--conf spark.sql.catalog.iceberg_catalog.client.assume-role.region=AWS_REGION
--conf spark.sql.secureCatalog=iceberg_catalog
Se você quiser que o Lake Formation use o servidor de registros para gerenciar seu catálogo do Spark, spark.sql.catalog.<managed_catalog_name>.lf.managed
defina como true.
Você também deve ter o cuidado NOT de passar as seguintes configurações de assumir função:
--conf spark.sql.catalog.my_catalog.client.assume-role.region --conf spark.sql.catalog.my_catalog.client.assume-role.arn --conf spark.sql.catalog.my_catalog.client.assume-role.tags.LakeFormationAuthorizedCaller
A matriz de apoio a seguir lista alguns dos principais recursos do Apache Iceberg com o Lake Formation:
Copiar na gravação | mesclar na leitura | |
---|---|---|
Consultas de instantâneos - Spark SQL |
✓ |
✓ |
Consultas otimizadas para leitura - Spark SQL |
✓ |
✓ |
Consultas incrementais |
✓ |
✓ |
Consultas de viagem no tempo |
✓ |
✓ |
Tabelas de metadados |
✓ |
✓ |
DML |
✓ |
✓ |
DDLcomandos |
||
Consultas de fontes de dados do Spark |
||
Gravações na fonte de dados do Spark |