Überlegungen und Einschränkungen - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überlegungen und Einschränkungen

Beachten Sie die folgenden Überlegungen und Einschränkungen, wenn Sie Lake Formation mit EMR Serverless verwenden.

Anmerkung

Wenn Sie Lake Formation für einen Spark-Job auf EMR Serverless aktivieren, startet der Job einen Systemtreiber und einen Benutzertreiber. Wenn Sie beim Start vorinitialisierte Kapazität angegeben haben, werden die Treiber aus der vorinitialisierten Kapazität bereitgestellt, und die Anzahl der Systemtreiber entspricht der Anzahl der Benutzertreiber, die Sie angeben. Wenn Sie On-Demand-Kapazität wählen, startet EMR Serverless zusätzlich zu einem Benutzertreiber auch einen Systemtreiber. Um die Kosten zu schätzen, die mit Ihrem EMR Serverless with Lake Formation Formation-Job verbunden sind, verwenden Sie den AWS Pricing Calculator.

Amazon EMR Serverless with Lake Formation ist in allen unterstützten EMRserverlosen Regionen außer AWS GovCloud (USA-Ost) und AWS GovCloud (US-West) verfügbar.

  • Amazon EMR Serverless unterstützt eine differenzierte Zugriffskontrolle über Lake Formation nur für Apache Hive- und Apache Iceberg-Tabellen. Zu den Apache Hive-Formaten gehören Parquet, und XSv. ORC

  • Lake Formation-fähige Anwendungen unterstützen die Verwendung von benutzerdefinierten EMR serverlosen Images nicht.

  • DynamicResourceAllocationFür Jobs in Lake Formation kann man nicht abschalten.

  • Sie können Lake Formation nur mit Spark-Jobs verwenden.

  • EMRServerless mit Lake Formation unterstützt nur eine einzige Spark-Sitzung während eines Jobs.

  • EMRServerless mit Lake Formation unterstützt nur kontenübergreifende Tabellenabfragen, die über Ressourcenlinks gemeinsam genutzt werden.

  • Folgendes wird nicht unterstützt:

    • Belastbare verteilte Datensätze () RDD

    • Spark-Streaming

    • Schreiben Sie mit Lake Formation erteilten Berechtigungen

    • Zugriffskontrolle für verschachtelte Spalten

  • EMRServerless blockiert Funktionen, die die vollständige Isolierung des Systemtreibers untergraben könnten, darunter die folgenden:

    • UDTsiveUDFs, H und jede benutzerdefinierte Funktion, die benutzerdefinierte Klassen beinhaltet

    • Benutzerdefinierte Datenquellen

    • Bereitstellung zusätzlicher Jars für Spark-Erweiterungen, Konnektoren oder Metastore

    • ANALYZE TABLE command

  • Zur Durchsetzung von Zugriffskontrollen EXPLAIN PLAN und DDL Vorgängen wie der DESCRIBE TABLE Vermeidung der Offenlegung geschützter Informationen.

  • EMRServerless schränkt den Zugriff auf Systemtreiber-Spark-Protokolle für Lake Formation-fähige Anwendungen ein. Da der Systemtreiber mit mehr Zugriffen ausgeführt wird, können Ereignisse und Protokolle, die der Systemtreiber generiert, vertrauliche Informationen enthalten. Um zu verhindern, dass unbefugte Benutzer oder Code auf diese sensiblen Daten zugreifen, hat EMR Serverless den Zugriff auf Systemtreiberprotokolle deaktiviert. Wenden Sie sich zur Fehlerbehebung an den AWS Support.

  • Wenn Sie einen Tabellenstandort bei Lake Formation registriert haben, durchläuft der Datenzugriffspfad unabhängig von der IAM Berechtigung für die EMR Serverless-Job-Runtime-Rolle die gespeicherten Anmeldeinformationen von Lake Formation. Wenn Sie die mit der Tabellenposition registrierte Rolle falsch konfigurieren, schlagen übermittelte Jobs fehl, die die Rolle mit IAM S3-Berechtigungen für den Tabellenspeicherort verwenden.

  • Beim Schreiben in eine Lake Formation-Tabelle werden IAM Berechtigungen und nicht die von Lake Formation erteilten Berechtigungen verwendet. Wenn Ihre Job-Runtime-Rolle über die erforderlichen S3-Berechtigungen verfügt, können Sie sie zum Ausführen von Schreibvorgängen verwenden.

Im Folgenden finden Sie Überlegungen und Einschränkungen bei der Verwendung von Apache Iceberg:

  • Sie können Apache Iceberg nur mit Sitzungskatalogen und nicht mit beliebig benannten Katalogen verwenden.

  • Iceberg-Tabellen, die in Lake Formation registriert sind, unterstützen nur die Metadatentabellen historymetadata_log_entries,snapshots,files,manifests, undrefs. Amazon EMR blendet die Spalten aus, die möglicherweise vertrauliche Daten wie partitionspath, und summaries enthalten. Diese Einschränkung gilt nicht für Iceberg-Tabellen, die nicht in Lake Formation registriert sind.

  • Tabellen, die Sie nicht in Lake Formation registrieren, unterstützen alle gespeicherten Iceberg-Prozeduren. Die migrate Prozeduren register_table und werden für keine Tabellen unterstützt.

  • Wir empfehlen, Iceberg DataFrameWriter V2 anstelle von V1 zu verwenden.