Datenformat des Amazon SageMaker Feature Store-Offline-Speichers - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenformat des Amazon SageMaker Feature Store-Offline-Speichers

Amazon SageMaker Feature Store unterstützt die Tabellenformate AWS Glue und Apache Iceberg für den Offline-Store. Sie können das Tabellenformat wählen, wenn Sie eine neue Feature-Gruppe erstellen. AWS Glue ist das Standardformat.

Die Offline-Shop-Daten von Amazon SageMaker Feature Store werden in einem Amazon S3 S3-Bucket in Ihrem Konto gespeichert. Wenn Sie PutRecord anrufen, werden Ihre Daten innerhalb von 15 Minuten gepuffert, gebündelt und in Amazon S3 geschrieben. Feature Store unterstützt nur das Parquet-Dateiformat, wenn Sie Ihre Daten in Ihren Offline-Speicher schreiben. Insbesondere wenn Ihre Daten in Ihren Offline-Speicher geschrieben werden, können die Daten im Parquet-Format aus Ihrem Amazon-S3-Bucket abgerufen werden. Jede Datei kann mehrere Records enthalten.

Für das Iceberg-Format speichert Feature Store die Metadaten der Tabelle in demselben Amazon-S3-Bucket, den Sie zum Speichern der Offline-Speicherdaten verwenden. Sie finden es unter dem metadata Präfix.

Feature Store macht auch die OfflineStoreConfigStorageConfigS.3 verfügbar. ResolvedOutputDas Feld S3Uri, das im Aufruf gefunden werden kann. DescribeFeatureGroupAPI Dies ist der S3-Pfad, unter dem die Dateien für die jeweilige Feature-Gruppe geschrieben werden.

Die folgenden zusätzlichen Felder werden von Feature Store zu jedem Datensatz hinzugefügt, wenn sie im Offline-Speicher gespeichert werden:

  • api_invocation_time – Der Zeitstempel, zu dem der Dienst den PutRecord oder DeleteRecord Aufruf empfängt. Bei Verwendung von verwalteter Datenerfassung (z. B. Data Wrangler) ist dies der Zeitstempel, zu dem Daten in den Offline-Speicher geschrieben wurden.

  • write_time – Der Zeitstempel, zu dem Daten in den Offline-Speicher geschrieben wurden. Kann für die Erstellung von Abfragen im Zusammenhang mit Zeitreisen verwendet werden.

  • is_deletedFalse standardmäßig. Wenn DeleteRecord aufgerufen wird, wird eine neue Datei Record in den RecordIdentifierValue Offline-Speicher eingefügt und dort auf True gesetzt.

URIOffline-Shop-Strukturen im Amazon SageMaker Feature Store

In den folgenden Beispielen amzn-s3-demo-bucket ist der Amazon-S3-Bucket in Ihrem Konto, example-prefix ist Ihr Beispielpräfix, 111122223333 ist Ihre Konto-ID, AWS-Region ist Ihre Region, feature-group-name ist der Name Ihrer Feature-Gruppe.

AWS Glue Tabellenformat

Datensätze im Offline-Speicher, die im AWS Glue Tabellenformat gespeichert wurden, werden nach Ereigniszeit in stündliche Partitionen unterteilt. Sie können das Partitionierungsschema nicht konfigurieren. Die folgende URI Struktur zeigt die Organisation einer Parquet-Datei unter Verwendung des folgenden AWS Glue Formats:

s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/feature-group-name-feature-group-creation-time/data/year=year/month=month/day=day/hour=hour/timestamp_of_latest_event_time_in_file_16-random-alphanumeric-digits.parquet

Das folgende Beispiel ist der Ausgabespeicherort einer Parquet-Datei für eine Datei mit feature-group-name als customer-purchase-history-patterns:

s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/customer-purchase-history-patterns-1593511200/data/year=2020/month=06/day=31/hour=00/20200631T064401Z_108934320012Az11.parquet

Eisberg-Tabellenformat

Datensätze im Offline-Speicher, die im Eisberg-Tabellenformat gespeichert sind, werden nach Ereigniszeit in tägliche Partitionen unterteilt. Sie können das Partitionierungsschema nicht konfigurieren. Die folgende URI Struktur zeigt die Organisation der im Iceberg-Tabellenformat gespeicherten Datendateien:

s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/feature-group-name-feature-group-creation-time/data/8-random-alphanumeric-digits/event-time-feature-name_trunc=event-time-year-event-time-month-event-time-day/timestamp-of-latest-event-time-in-file_16-random-alphanumeric-digits.parquet

Das folgende Beispiel ist der Ausgabespeicherort einer Parquet-Datei für eine Datei mit feature-group-name als customer-purchase-history-patterns, und der event-time-feature-name ist EventTime:

s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/customer-purchase-history-patterns-1593511200/data/0aec19ca/EventTime_trunc=2022-11-09/20221109T215231Z_yolTtpyuWbkaeGIl.parquet

Das folgende Beispiel zeigt den Speicherort einer Metadatendatei für Datendateien, die im Eisberg-Tabellenformat gespeichert sind.

s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/feature-group-name-feature-group-creation-time/metadata/