Datenregeln importieren Regeln für Ablaufdaten Beispielkonfigurationen

Synchronisation für S3-Dateien anpassen

Mit S3 Files können Sie mithilfe einer Synchronisationskonfiguration steuern, wie Daten zwischen Ihrem Dateisystem und dem verknüpften S3-Bucket fließen. Die Standardeinstellungen sorgen für ein ausgewogenes Verhältnis zwischen Latenz und Kosten für die meisten Workloads. Sie können sie jedoch an Ihre Zugriffsmuster anpassen. Das Importieren von mehr Daten im Voraus reduziert die Leselatenz auf Kosten höherer Speicher- und Schreibgebühren. Der Import von weniger Daten hält die Speicherkosten niedrig, bedeutet aber, dass mehr Lesevorgänge von S3 mit höherer Latenz bereitgestellt werden. Jede Konfiguration besteht aus zwei Komponenten: Regeln für den Import von Daten, die steuern, welche Daten wann in das Dateisystem kopiert werden, und Regeln für Ablaufdaten, die steuern, wie lange ungenutzte Daten im Dateisystem verbleiben. Sie können diese Regeln mithilfe der AWS Management Console oder der PutSynchronizationConfiguration API aktualisieren.

Datenregeln importieren

Regeln für den Datenimport steuern, wie Daten aus Ihrem Bucket in das Dateisystem kopiert werden. Sie können maximal 10 Regeln für den Import von Daten pro Dateisystem festlegen. Jede Importdatenregel hat die folgenden Parameter:

Präfix — Das S3-Präfix, für das die Regel gilt. Geben Sie eine leere Zeichenfolge („“) für den gesamten Bucket (Dateisystembereich) oder ein bestimmtes Präfix (z. B. „data/ml/“) innerhalb des Dateisystems an. Das Präfix muss mit einem Schrägstrich (/) enden, sofern nicht der gesamte Bucket mit „“ angegeben wird. Sie müssen genau eine Importregel für das Stammverzeichnis angeben. Standard: „“ (gesamter Bucket- oder Dateisystembereich).

trigger — Wann Daten importiert werden sollen: ON_DIRECTORY_FIRST_ACCESS oder ON_FILE_ACCESS. Standard: ON_DIRECTORY_FIRST_ACCESS.

ON_DIRECTORY_FIRST_ACCESS — Dateidaten werden importiert, wenn Sie zum ersten Mal auf ein Verzeichnis zugreifen. Wenn Sie beispielsweise zum ersten Mal auf ein Verzeichnis zugreifen, indem Sie dessen Inhalt auflisten oder eine darin enthaltene Datei öffnen, werden Daten für alle unmittelbar untergeordneten Dateien in diesem Verzeichnis importiert, die unter dem Schwellenwert liegen. sizeLessThan Diese Option ist nützlich für Workloads, die beim ersten Zugriff auf Dateien eine geringe Latenz erfordern.
ON_FILE_ACCESS — Dateidaten werden nur importiert, wenn eine Datei zum ersten Mal gelesen wird. Diese Option minimiert die importierten Daten auf Kosten einer höheren Latenz beim ersten Lesen.

sizeLessThan— Maximale Dateigröße (in Byte) für den automatischen Import. S3 Files importiert zwar Metadaten für alle Dateien, importiert jedoch nur Daten für Dateien, die unter diesem Schwellenwert liegen. Minimum: 0 Byte (es werden keine Daten importiert, Metadaten werden trotzdem importiert). Maximum: 52.673.613.135.872 Byte (48 TiB). Standard: 131.072 Byte (128 KiB).

Verhalten beim Anpassen von Präfixen

Wenn mehrere Importdatenregeln mit einer Datei übereinstimmen, wendet S3 Files die Regel mit dem spezifischsten Präfix an. Nehmen wir zum Beispiel an, Sie haben drei Regeln:

Regel 1: Präfix = „“ (ganzer Bucket), sizeLessThan = 64 KiB, Trigger = ON_FILE_ACCESS
Regel 2: Präfix = „hot/“, = 1 MiB, Trigger sizeLessThan = ON_DIRECTORY_FIRST_ACCESS
Regel 3: Präfix = „Hot/LargeData/“, = 256 KiB, Auslöser sizeLessThan = ON_DIRECTORY_FIRST_ACCESS

Für eine Datei unter hot/largeData/data.txt, S3 Files applies Rule 3. For a file at hot/data.txt, S3 Files applies Rule 2. For a file at cold/data .txt wendet S3 Files Regel 1 an, da es keine spezielle Regel für das Präfix cold/ gibt.

Regeln für Ablaufdaten

Regeln für Ablaufdaten steuern, wann ungenutzte Daten aus dem Dateisystem entfernt werden, um die Speicherkosten zu optimieren. S3 Files entfernt Daten, nachdem sie für einen bestimmten Zeitraum nicht gelesen wurden und ihre Änderungen bereits mit dem S3-Bucket synchronisiert wurden. Immer wenn eine Datei gelesen wird, wird ihr Ablauf-Timer zurückgesetzt, wodurch die Zeit verlängert wird, für die Daten im Dateisystem verbleiben. Sie können den folgenden Parameter in den Ablaufdatenregeln angeben:

daysAfterLastZugriff — Anzahl der Tage nach dem letzten Lesevorgang, an denen Daten aus dem Dateisystem entfernt wurden. Minimum: 1 Tag. Maximum: 365 Tage. Standard: 30 Tage.

Wenn Sie Workloads mit langer Laufzeit haben, die häufig auf dieselben Daten zugreifen, sollten Sie längere Ablaufzeiträume (30—90 Tage) in Betracht ziehen. Bei temporären Daten sollten Sie kürzere Zeiträume (1—7 Tage) in Betracht ziehen.

Beispielkonfigurationen

Allgemeine Dateifreigabe (Standardkonfiguration) — Ein Team von Entwicklern und Datenwissenschaftlern stellt ein S3-Dateisystem bereit, um Code, Konfigurationsdateien und kleine Datensätze gemeinsam zu nutzen. Die meisten Dateien sind unter 128 KiB und werden im Laufe des Tages wiederholt gelesen. Die Standardkonfiguration eignet sich gut für diese Arbeitslast: ON_DIRECTORY_FIRST_ACCESS importiert Metadaten und kleine Dateidaten, wenn zum ersten Mal auf eine Datei in einem Verzeichnis zugegriffen wird. Dies funktioniert gut, wenn auf Dateien im selben Verzeichnis wahrscheinlich zusammen zugegriffen wird, z. B. Quelldateien in einem Projekt oder Konfigurationsdateien in einer Bereitstellung. Der anschließende Zugriff durch einen beliebigen Benutzer ist schnell. Wenn ein Benutzer eine große Datei wie ein Protokollarchiv öffnet, streamt S3 Files sie automatisch direkt von S3, um einen hohen Durchsatz zu erzielen. Durch das 30-tägige Ablauffenster bleiben aktiv genutzte Dateien im Dateisystem erhalten, ohne dass sie manuell bereinigt werden müssen.

ML-Training mit wiederholten Lesevorgängen — Ein Trainingsjob liest Tausende kleiner Dateien (<10 MiB) wiederholt über mehrere Epochen hinweg. Um die Latenz zu minimieren, legen Sie mit ON_DIRECTORY_FIRST_ACCESS einen hohen sizeLessThan Schwellenwert (z. B. 10 MiB) fest, sodass Dateidaten vorgeladen werden, wenn das Trainingsskript jedes Verzeichnis zum ersten Mal auflistet. Legen Sie ein kurzes Ablaufdatum (z. B. 3 Tage) fest, sodass Daten unmittelbar nach Abschluss des Trainingsjobs aus dem Dateisystem entfernt werden.

Agenten-Workloads mit umfassender Dateierkennung — Ein KI-Agent durchsucht eine große Sammlung von Dokumenten, Code oder Wissensdatenbankdateien, um Anfragen zu beantworten. Dabei liest er viele kleine Dateien einmal, während er nach relevantem Kontext sucht. Auf 0 sizeLessThan setzen, damit keine Daten in das Dateisystem importiert werden. Der Agent kann den gesamten Verzeichnisbaum mit geringer Latenz durchsuchen, um Dateien zu finden, wobei jede gelesene Datei direkt von S3 aus bereitgestellt wird. Dadurch werden die Kosten für Workloads niedrig gehalten, bei denen viele Dateien unvorhersehbar bearbeitet werden, aber selten dieselbe Datei erneut aufgerufen wird, und die Skalierung erfolgt auf natürliche Weise, wenn Sie mehr Agenten hinzufügen, die parallel lesen.

Heiße und kalte Präfixe — Ein Dateisystem enthält sowohl häufig aufgerufene Konfigurationsdateien unter als auch selten aufgerufene Archivdaten unterconfig/. archive/ Erstellen Sie zwei Importregeln: eine für einen hohen Wert sizeLessThan und ON_DIRECTORY_FIRST_ACCESS und eine für Importregeln config/ mit dem Wert 0 und ON_FILE_ACCESS. archive/ sizeLessThan Dadurch bleiben die Konfigurationsdateien für einen schnellen Zugriff im Dateisystem und vermeiden gleichzeitig Speicherkosten für Archivdaten, die selten gelesen werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Synchronisieren von Daten

Überwachung und Prüfung