Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dateneingabekanal für die Verwendung von Amazon FSx for Lustre konfigurieren
Erfahren Sie, wie Sie Amazon FSx for Lustre als Datenquelle für höheren Durchsatz und schnelleres Training verwenden können, indem Sie die Zeit für das Laden von Daten reduzieren.
Anmerkung
Wenn Sie EFA -aktivierte Instances wie P4d und P3dn verwenden, stellen Sie sicher, dass Sie in der Sicherheitsgruppe die entsprechenden Eingangs- und Ausgaberegeln festlegen. Insbesondere ist das Öffnen dieser Ports erforderlich, SageMaker um im Trainingsjob auf das FSx Amazon-Dateisystem zugreifen zu können. Weitere Informationen finden Sie unter Dateisystem-Zugriffskontrolle mit Amazon VPC.
Amazon S3 und Amazon FSx for Lustre synchronisieren
Gehen Sie wie folgt vor, um Ihr Amazon S3 mit Amazon FSx for Lustre zu verknüpfen und Ihre Trainingsdatensätze hochzuladen.
-
Bereiten Sie Ihren Datensatz vor und laden Sie ihn in eine Amazon-S3-Bucket hoch. Nehmen wir beispielsweise an, dass die Amazon S3-Pfade für einen Trainingsdatensatz und einen Testdatensatz das folgende Format haben.
s3://amzn-s3-demo-bucket/data/train s3://amzn-s3-demo-bucket/data/test
-
Um ein mit dem Amazon S3 S3-Bucket verknüpftes FSx For Lustre-Dateisystem mit den Trainingsdaten zu erstellen, folgen Sie den Schritten unter Verknüpfen Ihres Dateisystems mit einem Amazon S3 S3-Bucket im Amazon FSx for Lustre-Benutzerhandbuch. Stellen Sie sicher, dass Sie Ihrem VPC erlaubten Amazon S3 S3-Zugriff einen Endpunkt hinzufügen. Weitere Informationen finden Sie unter Erstellen Sie einen Amazon S3 VPC S3-Endpunkt. Wenn Sie den Datenrepository-Pfad angeben, geben Sie den Amazon S3 S3-Bucket URI des Ordners an, der Ihre Datensätze enthält. Ausgehend von den S3-Beispielpfaden in Schritt 1 sollte der Pfad zum Datenspeicher beispielsweise wie folgt lauten.
s3://amzn-s3-demo-bucket/data
-
Nachdem das FSx for Lustre-Dateisystem erstellt wurde, überprüfen Sie die Konfigurationsinformationen, indem Sie die folgenden Befehle ausführen.
aws fsx describe-file-systems && \ aws fsx describe-data-repository-association
Diese Befehle geben
FileSystemId
,MountName
FileSystemPath
, undDataRepositoryPath
zurück. Die Ausgaben sollten zum Beispiel wie folgt aussehen.# Output of aws fsx describe-file-systems "FileSystemId": "fs-0123456789abcdef0" "MountName": "1234abcd" # Output of aws fsx describe-data-repository-association "FileSystemPath": "/ns1", "DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"
Nachdem die Synchronisierung zwischen Amazon S3 und Amazon FSx abgeschlossen ist, werden Ihre Datensätze in Amazon FSx in den folgenden Verzeichnissen gespeichert.
/ns1/train # synced with s3://amzn-s3-demo-bucket/data/train /ns1/test # synced with s3://amzn-s3-demo-bucket/data/test
Stellen Sie den FSx Amazon-Dateisystempfad als Dateneingabekanal für das SageMaker Training ein
Die folgenden Verfahren führen Sie durch den Prozess der Einrichtung des FSx Amazon-Dateisystems als Datenquelle für SageMaker Trainingsjobs.