Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Datenformat des Amazon SageMaker Feature Store-Offline-Speichers
Amazon SageMaker Feature Store unterstützt die Tabellenformate AWS Glue und Apache Iceberg für den Offline-Store. Sie können das Tabellenformat wählen, wenn Sie eine neue Feature-Gruppe erstellen. AWS Glue ist das Standardformat.
Die Offline-Shop-Daten von Amazon SageMaker Feature Store werden in einem Amazon S3 S3-Bucket in Ihrem Konto gespeichert. Wenn Sie PutRecord
anrufen, werden Ihre Daten innerhalb von 15 Minuten gepuffert, gebündelt und in Amazon S3 geschrieben. Feature Store unterstützt nur das Parquet-Dateiformat, wenn Sie Ihre Daten in Ihren Offline-Speicher schreiben. Insbesondere wenn Ihre Daten in Ihren Offline-Speicher geschrieben werden, können die Daten im Parquet-Format aus Ihrem Amazon-S3-Bucket abgerufen werden. Jede Datei kann mehrere Record
s enthalten.
Für das Iceberg-Format speichert Feature Store die Metadaten der Tabelle in demselben Amazon-S3-Bucket, den Sie zum Speichern der Offline-Speicherdaten verwenden. Sie finden es unter dem metadata
Präfix.
Feature Store macht auch die OfflineStoreConfigStorageConfigS.3 verfügbar. ResolvedOutputDas Feld S3Uri, das im Aufruf gefunden werden kann. DescribeFeatureGroupAPI Dies ist der S3-Pfad, unter dem die Dateien für die jeweilige Feature-Gruppe geschrieben werden.
Die folgenden zusätzlichen Felder werden von Feature Store zu jedem Datensatz hinzugefügt, wenn sie im Offline-Speicher gespeichert werden:
-
api_invocation_time – Der Zeitstempel, zu dem der Dienst den
PutRecord
oderDeleteRecord
Aufruf empfängt. Bei Verwendung von verwalteter Datenerfassung (z. B. Data Wrangler) ist dies der Zeitstempel, zu dem Daten in den Offline-Speicher geschrieben wurden. -
write_time – Der Zeitstempel, zu dem Daten in den Offline-Speicher geschrieben wurden. Kann für die Erstellung von Abfragen im Zusammenhang mit Zeitreisen verwendet werden.
-
is_deleted –
False
standardmäßig. WennDeleteRecord
aufgerufen wird, wird eine neue DateiRecord
in denRecordIdentifierValue
Offline-Speicher eingefügt und dort aufTrue
gesetzt.
URIOffline-Shop-Strukturen im Amazon SageMaker Feature Store
In den folgenden Beispielen amzn-s3-demo-bucket
ist der Amazon-S3-Bucket in Ihrem Konto,
ist Ihr Beispielpräfix, example-prefix
ist Ihre Konto-ID, 111122223333
ist Ihre Region, AWS-Region
ist der Name Ihrer Feature-Gruppe. feature-group-name
AWS Glue Tabellenformat
Datensätze im Offline-Speicher, die im AWS Glue Tabellenformat gespeichert wurden, werden nach Ereigniszeit in stündliche Partitionen unterteilt. Sie können das Partitionierungsschema nicht konfigurieren. Die folgende URI Struktur zeigt die Organisation einer Parquet-Datei unter Verwendung des folgenden AWS Glue Formats:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/AWS-Region
/offline-store/feature-group-name
-feature-group-creation-time
/data/year=year
/month=month
/day=day
/hour=hour
/timestamp_of_latest_event_time_in_file
_16-random-alphanumeric-digits
.parquet
Das folgende Beispiel ist der Ausgabespeicherort einer Parquet-Datei für eine Datei mit
als feature-group-name
customer-purchase-history-patterns
:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/AWS-Region
/offline-store/customer-purchase-history-patterns-1593511200/data/year=2020/month=06/day=31/hour=00/20200631T064401Z_108934320012Az11.parquet
Eisberg-Tabellenformat
Datensätze im Offline-Speicher, die im Eisberg-Tabellenformat gespeichert sind, werden nach Ereigniszeit in tägliche Partitionen unterteilt. Sie können das Partitionierungsschema nicht konfigurieren. Die folgende URI Struktur zeigt die Organisation der im Iceberg-Tabellenformat gespeicherten Datendateien:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/AWS-Region
/offline-store/feature-group-name
-feature-group-creation-time
/data/8-random-alphanumeric-digits
/event-time-feature-name
_trunc=event-time-year
-event-time-month
-event-time-day
/timestamp-of-latest-event-time-in-file_16-random-alphanumeric-digits.parquet
Das folgende Beispiel ist der Ausgabespeicherort einer Parquet-Datei für eine Datei mit
als feature-group-name
customer-purchase-history-patterns
, und der
ist event-time-feature-name
EventTime
:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/AWS-Region
/offline-store/customer-purchase-history-patterns-1593511200/data/0aec19ca/EventTime_trunc=2022-11-09/20221109T215231Z_yolTtpyuWbkaeGIl.parquet
Das folgende Beispiel zeigt den Speicherort einer Metadatendatei für Datendateien, die im Eisberg-Tabellenformat gespeichert sind.
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/AWS-Region
/offline-store/feature-group-name
-feature-group-creation-time
/metadata/