Amazon S3 und Amazon FSx for Lustre synchronisieren Stellen Sie den FSx Amazon-Dateisystempfad als Dateneingabekanal für das SageMaker Training ein

Dateneingabekanal für die Verwendung von Amazon FSx for Lustre konfigurieren

Erfahren Sie, wie Sie Amazon FSx for Lustre als Datenquelle für höheren Durchsatz und schnelleres Training verwenden können, indem Sie die Zeit für das Laden von Daten reduzieren.

Anmerkung

Wenn Sie EFA -aktivierte Instances wie P4d und P3dn verwenden, stellen Sie sicher, dass Sie in der Sicherheitsgruppe die entsprechenden Eingangs- und Ausgaberegeln festlegen. Insbesondere ist das Öffnen dieser Ports erforderlich, SageMaker um im Trainingsjob auf das FSx Amazon-Dateisystem zugreifen zu können. Weitere Informationen finden Sie unter Dateisystem-Zugriffskontrolle mit Amazon VPC.

Amazon S3 und Amazon FSx for Lustre synchronisieren

Gehen Sie wie folgt vor, um Ihr Amazon S3 mit Amazon FSx for Lustre zu verknüpfen und Ihre Trainingsdatensätze hochzuladen.

Bereiten Sie Ihren Datensatz vor und laden Sie ihn in eine Amazon-S3-Bucket hoch. Nehmen wir beispielsweise an, dass die Amazon S3-Pfade für einen Trainingsdatensatz und einen Testdatensatz das folgende Format haben.
```
s3://amzn-s3-demo-bucket/data/train
s3://amzn-s3-demo-bucket/data/test
```
Um ein mit dem Amazon S3 S3-Bucket verknüpftes FSx For Lustre-Dateisystem mit den Trainingsdaten zu erstellen, folgen Sie den Schritten unter Verknüpfen Ihres Dateisystems mit einem Amazon S3 S3-Bucket im Amazon FSx for Lustre-Benutzerhandbuch. Stellen Sie sicher, dass Sie Ihrem VPC erlaubten Amazon S3 S3-Zugriff einen Endpunkt hinzufügen. Weitere Informationen finden Sie unter Erstellen Sie einen Amazon S3 VPC S3-Endpunkt. Wenn Sie den Datenrepository-Pfad angeben, geben Sie den Amazon S3 S3-Bucket URI des Ordners an, der Ihre Datensätze enthält. Ausgehend von den S3-Beispielpfaden in Schritt 1 sollte der Pfad zum Datenspeicher beispielsweise wie folgt lauten.
```
s3://amzn-s3-demo-bucket/data
```
Nachdem das FSx for Lustre-Dateisystem erstellt wurde, überprüfen Sie die Konfigurationsinformationen, indem Sie die folgenden Befehle ausführen.
```
aws fsx describe-file-systems && \
aws fsx describe-data-repository-association
```
Diese Befehle gebenFileSystemId, MountNameFileSystemPath, und DataRepositoryPath zurück. Die Ausgaben sollten zum Beispiel wie folgt aussehen.
```
# Output of aws fsx describe-file-systems
"FileSystemId": "fs-0123456789abcdef0"
"MountName": "1234abcd"

# Output of aws fsx describe-data-repository-association
"FileSystemPath": "/ns1",
"DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"
```
Nachdem die Synchronisierung zwischen Amazon S3 und Amazon FSx abgeschlossen ist, werden Ihre Datensätze in Amazon FSx in den folgenden Verzeichnissen gespeichert.
```
/ns1/train  # synced with s3://amzn-s3-demo-bucket/data/train
/ns1/test   # synced with s3://amzn-s3-demo-bucket/data/test
```

Stellen Sie den FSx Amazon-Dateisystempfad als Dateneingabekanal für das SageMaker Training ein

Die folgenden Verfahren führen Sie durch den Prozess der Einrichtung des FSx Amazon-Dateisystems als Datenquelle für SageMaker Trainingsjobs.

Using the SageMaker Python SDK

Um das FSx Amazon-Dateisystem ordnungsgemäß als Datenquelle festzulegen, konfigurieren Sie die SageMaker Schätzerklassen und FileSystemInput verwenden Sie die folgende Anweisung.

Konfigurieren Sie ein FileSystemInput Klassenobjekt.


from sagemaker.inputs import FileSystemInput

train_fs = FileSystemInput(
    file_system_id="fs-0123456789abcdef0",
    file_system_type="FSxLustre",
    directory_path="/1234abcd/ns1/",
    file_system_access_mode="ro",
)

Tipp

Stellen Sie bei der Angabe sicherdirectory_path, dass Sie den FSx Amazon-Dateisystempfad angeben, der mit beginntMountName.

Konfigurieren Sie einen SageMaker Schätzer mit der für das FSx Amazon-Dateisystem verwendeten VPC Konfiguration.
```
from sagemaker.estimator import Estimator

estimator = Estimator(
    ...
    role="your-iam-role-with-access-to-your-fsx",
    subnets=["subnet-id"],  # Should be the same as the subnet used for Amazon FSx
    security_group_ids="security-group-id"
)
```
Stellen Sie sicher, dass die IAM Rolle für den SageMaker Schulungsjob über die Berechtigungen für den Zugriff und das Lesen von Amazon verfügtFSx.
Starten Sie den Trainingsjob, indem Sie die Methode estimator.fit mit dem FSx Amazon-Dateisystem ausführen.
```
estimator.fit(train_fs)
```

Weitere Codebeispiele finden Sie unter Verwenden von Dateisystemen als Trainingseingaben in der SageMaker SDKPython-Dokumentation.

Using the SageMaker CreateTrainingJob API

Konfigurieren Sie im Rahmen der CreateTrainingJobAnfrage JSON InputDataConfig wie folgt.


"InputDataConfig": [ 
    { 
        "ChannelName": "string",
        "DataSource": { 
            "FileSystemDataSource": { 
                "DirectoryPath": "/1234abcd/ns1/",
                "FileSystemAccessMode": "ro",
                "FileSystemId": "fs-0123456789abcdef0",
                "FileSystemType": "FSxLustre"
            }
        }
    }
],

Tipp

Stellen Sie bei der Angabe sicherDirectoryPath, dass Sie den FSx Amazon-Dateisystempfad angeben, der mit beginntMountName.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Konfigurieren Sie den Dateneingabemodus mit SageMaker Python SDK

Wählen Sie einen Eingabemodus und eine Speichereinheit