Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Löschen verwaister Dateien aktivieren
Sie können die AWS Glue -Konsole,, verwenden AWS CLI, AWS API um das Löschen verwaister Dateien für Ihre Apache-Iceberg-Tabellen im Datenkatalog zu aktivieren. Für neue Tabellen können Sie Apache Iceberg als Tabellenformat auswählen und den Orphan File Deletion Optimizer beim Erstellen der Tabellen aktivieren. Für neue Tabellen ist die Verwahrung von Snapshots standardmäßig deaktiviert.
- Console
-
Um das Löschen verwaister Dateien zu aktivieren
-
Öffnen Sie die AWS Glue -Konsole unter https://console.aws.amazon.com/glue/
und melden Sie sich als Data-Lake-Administrator, als Tabellenersteller oder als Benutzer an, dem die lakeformation:GetDataAccess
Berechtigungenglue:UpdateTable
und für die Tabelle erteilt wurden. -
Wählen Sie im Navigationsbereich unter Datenkatalog die Option Tabellen aus.
Wählen Sie auf der Seite Tabellen eine Iceberg-Tabelle aus, in der Sie das Löschen verwaister Dateien aktivieren möchten.
Wählen Sie im unteren Bereich der Seite die Registerkarte Tabellenoptimierung und dann unter Aktionen die Option Aktivieren, Löschen verwaister Dateien aus.
Sie können auch im Aktionsmenü in der oberen rechten Ecke der Seite die Option Aktivieren unter Optimierung auswählen.
-
Wählen Sie auf der Seite Optimierung aktivieren unter Optimierungsoptionen die Option Löschen verwaister Dateien aus.
-
Wenn Sie die Standardeinstellungen verwenden, werden alle verwaisten Dateien nach 3 Tagen gelöscht. Wenn Sie die verwaisten Dateien für eine bestimmte Anzahl von Tagen behalten möchten, wählen Sie Einstellungen anpassen.
-
Wählen Sie als Nächstes eine IAM Rolle mit den erforderlichen Berechtigungen zum Löschen verwaister Dateien aus.
-
Wenn Sie Sicherheitsrichtlinien-Konfigurationen haben, bei denen der Iceberg-Tabellenoptimierer auf Amazon S3 S3-Buckets von einer bestimmten Virtual Private Cloud (VPC) zugreifen muss, stellen Sie eine AWS Glue Netzwerkverbindung her oder verwenden Sie eine bestehende.
Wenn Sie noch keine AWS Glue VPC Verbindung eingerichtet haben, erstellen Sie eine neue, indem Sie die Schritte im Abschnitt Verbindungen für Konnektoren erstellen mithilfe der AWS Glue Konsole oder der Taste/ausführen. AWS CLI SDK
-
Wenn Sie Einstellungen anpassen wählen, geben Sie unter Konfiguration zum Löschen verwaister Dateien die Anzahl der Tage ein, für die die Dateien vor dem Löschen aufbewahrt werden sollen.
-
Wählen Sie Optimierung aktivieren aus.
-
- AWS CLI
-
Um das Löschen verwaister Dateien für eine Iceberg-Tabelle in zu aktivieren AWS Glue, müssen Sie einen Tabellenoptimierer vom Typ 1 erstellen
orphan_file_deletion
und dasenabled
Feld auf true setzen. Um mit dem einen Optimizer für das Löschen verwaister Dateien für eine Iceberg-Tabelle zu erstellen AWS CLI, können Sie den folgenden Befehl verwenden:aws glue create-table-optimizer \ --catalog-id
123456789012
\ --database-nameiceberg_db
\ --table-nameiceberg_table
\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"
}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3
, "location":'S3 location
'}}}'\ --type orphan_file_deletionDieser Befehl erstellt einen Optimierer für das Löschen verwaister Dateien für die angegebene Iceberg-Tabelle. Die wichtigsten Parameter sind:
-
roleArn — die ARN der IAM Rolle mit den Berechtigungen für den Zugriff auf den S3-Bucket und die Glue-Ressourcen.
-
enabled — Auf „true“ festlegen, um den Optimizer zu aktivieren.
-
orphanFileRetentionPeriodInDays — Die Anzahl der Tage, für die verwaiste Dateien aufbewahrt werden sollen, bevor sie gelöscht werden (mindestens 1 Tag).
-
type — Auf orphan_file_deletion setzen, um einen Optimierer für das Löschen verwaister Dateien zu erstellen.
Nach der Erstellung des Tabellenoptimierers führt er in regelmäßigen Abständen das Löschen verwaister Dateien durch (einmal täglich, sofern aktiviert). Sie können die Läufe mit dem überprüfen.
list-table-optimizer-runs
API Der Job zum Löschen verwaister Dateien identifiziert und löscht Dateien, die nicht in den Iceberg-Metadaten für die Tabelle erfasst sind. -
- API
-
Rufen Sie den CreateTableOptimizerVorgang auf, um den Optimizer für das Löschen verwaister Dateien für eine bestimmte Tabelle zu erstellen.