Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Aktivieren der Verdichtungsoptimierung
Sie können die AWS Glue -Konsole, die oder verwenden AWS CLI, AWS API um die Verdichtung für Ihre Apache-Iceberg-Tabellen im AWS Glue Datenkatalog zu aktivieren. Für neue Tabellen können Sie Apache Iceberg als Tabellenformat auswählen und die Verdichtung beim Erstellen der Tabellen aktivieren. Für neue Tabellen ist die Verdichtung standardmäßig deaktiviert.
- Console
-
Aktivieren der Verdichtung
-
Öffnen Sie die AWS Glue -Konsole unter https://console.aws.amazon.com/glue/und melden Sie sich als Data-Lake-Administrator, als Tabellenersteller oder als Benutzer an, dem die lakeformation:GetDataAccess
Berechtigungen glue:UpdateTable
und für die Tabelle erteilt wurden.
-
Wählen Sie im Navigationsbereich unter Datenkatalog die Option Tabellen aus.
Wählen Sie auf der Seite Tabellen eine Tabelle im geöffneten Tabellenformat aus, für die Sie die Komprimierung aktivieren möchten. Wählen Sie dann im Menü Aktionen die Option Optimierung und dann Aktivieren aus.
Sie können die Verdichtung auch aktivieren, indem Sie auf der Seite mit den Tabellendetails die Registerkarte Tabellenoptimierung auswählen. Wählen Sie im unteren Bereich der Seite die Registerkarte Tabellenoptimierung und dann Verdichtung aktivieren aus.
Die Option Optimierung aktivieren ist auch verfügbar, wenn Sie eine neue Iceberg-Tabelle im Datenkatalog erstellen.
-
Wählen Sie auf der Seite Optimierung aktivieren unter Optimierungsoptionen die Option Komprimierung aus.
-
Wählen Sie als Nächstes eine IAM Rolle aus der Dropdown-Liste mit den im Voraussetzungen für die Tabellenoptimierung Abschnitt aufgeführten Berechtigungen aus.
Sie können auch die Option Neue IAM Rolle erstellen auswählen, um eine benutzerdefinierte Rolle mit den erforderlichen Berechtigungen zum Ausführen der Verdichtung zu erstellen.
Gehen Sie wie folgt vor, um eine vorhandene IAM Rolle zu aktualisieren:
-
Um die Berechtigungsrichtlinie für die IAM Rolle zu aktualisieren, wechseln Sie in der IAM -Konsole zu der IAM Rolle, die zum Ausführen der Verdichtung verwendet wird.
-
Wählen Sie im Abschnitt Berechtigungen hinzufügen die Option Richtlinie erstellen aus. Erstellen Sie im neu geöffneten Browserfenster eine neue Richtlinie, die Sie mit Ihrer Rolle verwenden möchten.
-
Wählen Sie auf der Seite Richtlinie erstellen die JSON
Registerkarte aus. Kopieren Sie den JSON unter Voraussetzungen aufgeführten Code in das Richtlinien-Editor-Feld.
-
Wenn Sie Sicherheitsrichtlinien-Konfigurationen haben, bei denen der Iceberg-Tabellenoptimierer auf Amazon S3 S3-Buckets von einer bestimmten Virtual Private Cloud (VPC) zugreifen muss, stellen Sie eine AWS Glue Netzwerkverbindung her oder verwenden Sie eine bestehende.
Wenn Sie noch keine AWS Glue VPC Verbindung eingerichtet haben, erstellen Sie eine neue, indem Sie die Schritte im Abschnitt Verbindungen für Konnektoren erstellen mithilfe der AWS Glue Konsole oder der Taste/ausführen. AWS CLI SDK
-
Wählen Sie Optimierung aktivieren aus.
- AWS CLI
-
Im folgenden Beispiel wird gezeigt, wie Sie die Verdichtung aktivieren. Ersetzen Sie die Konto-ID durch eine gültige AWS -Konto-ID. Ersetzen Sie den Datenbanknamen und den Tabellennamen durch die tatsächlichen Tabellen- und Datenbanknamen in Iceberg. Ersetzen Sie das roleArn
durch den AWS Ressourcennamen (ARN) der IAM Rolle und den Namen der IAM Rolle, die über die erforderlichen Berechtigungen zum Ausführen der Komprimierung verfügt.
aws glue create-table-optimizer \
--catalog-id 123456789012
\
--database-name iceberg_db
\
--table-name iceberg_table
\
--table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
", "enabled":'true',
"vpcConfiguration":{"glueConnectionName":"glue_connection_name"
}}' \
--type compaction
- AWS API
-
Rufen Sie die CreateTableOptimizerOperation auf, um die Verdichtung für eine Tabelle zu aktivieren.
Nachdem Sie die Verdichtung aktiviert haben, werden auf der Registerkarte Tabellenoptimierung die folgenden Verdichtungsdetails angezeigt (nach etwa 15 bis 20 Minuten):
- Startzeit
-
Die Zeit, zu der der der der Verdichtungsprozess innerhalb von Data Catalog gestartet wurde. Der Wert ist ein ZeitstempelUTC.
- Endzeit
-
Die Zeit, zu der der der der Verdichtungsprozess innerhalb von Data Catalog beendet wurde. Der Wert ist ein ZeitstempelUTC.
- Status
-
Der Status der Verdichtungsausführung. Die Werte sind „Erfolgreich“ oder „Fehlgeschlagen“.
- Verdichtete Dateien
Gesamtzahl der verdichteten Dateien.
- Verdichtete Byte
-
Gesamtzahl der verdichteten Byte.