(Optional) Migrieren Sie Daten von Studio Classic zu Studio - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

(Optional) Migrieren Sie Daten von Studio Classic zu Studio

Studio Classic und Studio verwenden zwei verschiedene Arten von Speichervolumes. Studio Classic verwendet ein einzelnes Amazon Elastic File System (Amazon EFS) -Volume, um Daten für alle Benutzer und gemeinsam genutzten Bereiche in der Domain zu speichern. In Studio erhält jeder Bereich sein eigenes Amazon Elastic Block Store (Amazon EBS) -Volume. Wenn Sie die Standarderfahrung einer vorhandenen Domain aktualisieren, hängt SageMaker AI automatisch einen Ordner in einem Amazon EFS-Volume für jeden Benutzer in einer Domain ein. Dadurch können Benutzer in ihren Studio-Anwendungen auf Dateien von Studio Classic aus zugreifen. Weitere Informationen finden Sie unter Automatisches Mounten von Amazon EFS in Studio.

Sie können auch die automatische Bereitstellung von Amazon EFS deaktivieren und die Daten manuell migrieren, um Benutzern Zugriff auf Dateien aus Studio Classic in Studio-Anwendungen zu gewähren. Um dies zu erreichen, müssen Sie die Dateien aus den Home-Verzeichnissen der Benutzer auf die Amazon EBS-Volumes übertragen, die diesen Bereichen zugeordnet sind. Der folgende Abschnitt enthält Informationen zu diesem Workflow. Weitere Informationen zum Deaktivieren der automatischen Bereitstellung von Amazon EFS finden Sie unter. Automatisches Mounten von Amazon EFS deaktivieren

Migrieren Sie alle Ihre Daten manuell aus Studio Classic

Im folgenden Abschnitt wird beschrieben, wie Sie alle Daten von Ihrem Studio Classic-Speichervolume auf das neue Studio-Erlebnis migrieren.

Bei der manuellen Migration der Daten, des Codes und der Artefakte eines Benutzers von Studio Classic nach Studio empfehlen wir einen der folgenden Ansätze:

  1. Verwenden eines benutzerdefinierten Amazon EFS-Volumes

  2. Verwenden von Amazon Simple Storage Service (Amazon S3)

Wenn Sie Amazon SageMaker Data Wrangler in Studio Classic verwendet haben und Ihre Datenflussdateien migrieren möchten, wählen Sie eine der folgenden Migrationsoptionen:

  • Wenn Sie alle Daten von Ihrem Studio Classic-Speichervolume migrieren möchten, einschließlich Ihrer Datenflussdateien, gehen Sie zu Migrieren Sie alle Ihre Daten manuell aus Studio Classic und füllen Sie den Abschnitt Verwenden von Amazon S3 zum Migrieren von Daten aus. Fahren Sie dann mit dem Importieren Sie die Flow-Dateien in Canvas Abschnitt fort.

  • Wenn Sie nur Ihre Datenflussdateien und keine anderen Daten von Ihrem Studio Classic-Speichervolume migrieren möchten, fahren Sie mit dem Migrieren Sie Datenflüsse aus Data Wrangler Abschnitt fort.

Voraussetzungen

Bevor Sie diese Schritte ausführen, müssen Sie die Voraussetzungen unter erfüllenVollständige Voraussetzungen für die Migration des Studio-Erlebnisses. Sie müssen auch die Schritte unter ausführenMigrieren Sie die Benutzeroberfläche von Studio Classic zu Studio.

Einen Ansatz wählen

Beachten Sie bei der Auswahl eines Ansatzes für die Migration Ihrer Studio Classic-Daten Folgendes.

Vor- und Nachteile der Verwendung eines benutzerdefinierten Amazon EFS-Volumes

Bei diesem Ansatz verwenden Sie eine Amazon EFS-to-Amazon AWS DataSync EFS-Aufgabe (einmalig oder in regelmäßigen Abständen), um Daten zu kopieren und anschließend das Amazon EFS-Zielvolume in die Bereiche eines Benutzers einzubinden. Dadurch erhalten Benutzer Zugriff auf Daten aus Studio Classic in ihren Studio-Computerumgebungen.

Vorteile:

  • In den Bereichen des Benutzers sind nur die Home-Verzeichnisdaten des Benutzers sichtbar. Es findet keine gegenseitige Bestäubung der Daten statt.

  • Die Synchronisierung vom Amazon EFS-Quellvolume mit einem Amazon EFS-Zielvolume ist sicherer, als das von SageMaker KI verwaltete Amazon EFS-Quellvolume direkt in Spaces einzubinden. Dadurch wird die Gefahr einer Beeinträchtigung der Benutzerdateien im Home-Verzeichnis vermieden.

  • Benutzer haben die Flexibilität, weiterhin in Studio Classic- und Studio-Anwendungen zu arbeiten und gleichzeitig ihre Daten in beiden Anwendungen verfügbar zu haben, wenn AWS DataSync die Einrichtung in regelmäßigen Abständen erfolgt.

  • Mit Amazon S3 ist kein wiederholtes Push & Pull erforderlich.

Nachteile:

  • Kein Schreibzugriff auf das Amazon EFS-Zielvolume, das in die Bereiche des Benutzers eingebunden ist. Um Schreibzugriff auf das Amazon EFS-Zielvolume zu erhalten, müssten Kunden das Amazon EFS-Zielvolume in eine Amazon Elastic Compute Cloud-Instance einbinden und Benutzern die entsprechenden Berechtigungen zum Schreiben in das Amazon EFS-Präfix gewähren.

  • Erfordert eine Änderung der von SageMaker KI verwalteten Sicherheitsgruppen, um eingehenden und ausgehenden Datenfluss über das Netzwerkdateisystem (NFS) zu ermöglichen.

  • Kostet mehr als die Nutzung von Amazon S3.

  • Wenn Sie Datenflüsse aus Data Wrangler in Studio Classic migrieren, müssen Sie die Schritte zum manuellen Exportieren von Flow-Dateien befolgen.

Vor- und Nachteile der Verwendung von Amazon S3

Bei diesem Ansatz verwenden Sie eine Amazon EFS-to-Amazon AWS DataSync S3-Aufgabe (einmalig oder in regelmäßigen Abständen), um Daten zu kopieren, und erstellen dann eine Lebenszykluskonfiguration, um die Daten des Benutzers von Amazon S3 auf das Amazon EBS-Volume seines privaten Bereichs zu kopieren.

Vorteile:

  • Wenn das LCC an die Domain angehängt ist, können Benutzer wählen, ob sie das LCC verwenden möchten, um Daten in ihren Space zu kopieren oder den Space ohne LCC-Skript auszuführen. Dadurch haben Benutzer die Wahl, ihre Dateien nur in die Bereiche zu kopieren, die sie benötigen.

  • Wenn eine AWS DataSync Aufgabe in einem bestimmten Rhythmus eingerichtet wird, können Benutzer ihre Studio-Anwendung neu starten, um die neuesten Dateien abzurufen.

  • Da die Daten nach Amazon EBS kopiert werden, haben Benutzer Schreibberechtigungen für die Dateien.

  • Amazon S3 S3-Speicher ist günstiger als Amazon EFS.

  • Wenn Sie Datenflüsse aus Data Wrangler in Studio Classic migrieren, können Sie die manuellen Exportschritte überspringen und die Datenflüsse direkt von Amazon S3 in SageMaker Canvas importieren.

Nachteile:

  • Wenn Administratoren Fremdbestäubung verhindern möchten, müssen sie AWS Identity and Access Management Richtlinien auf Benutzerebene erstellen, um sicherzustellen, dass Benutzer nur auf das Amazon S3 S3-Präfix zugreifen können, das ihre Dateien enthält.

Bei diesem Ansatz verwenden Sie ein Amazon EFS-to-Amazon EFS, AWS DataSync um den Inhalt eines Studio Classic Amazon EFS-Volumes einmal oder in regelmäßigen Abständen auf ein Amazon EFS-Zielvolume zu kopieren und dann das Amazon EFS-Zielvolume in die Spaces eines Benutzers einzubinden. Dadurch erhalten Benutzer Zugriff auf Daten aus Studio Classic in ihren Studio-Computerumgebungen.

  1. Erstellen Sie ein Amazon EFS-Zielvolume. Sie übertragen Daten auf dieses Amazon EFS-Volume und mounten es mithilfe von Mounten auf Präfixebene in den Speicherplatz eines entsprechenden Benutzers.

    export SOURCE_DOMAIN_ID="domain-id" export REGION="region" export TARGET_EFS=$(aws efs create-file-system --performance-mode generalPurpose --throughput-mode bursting --encrypted --region $REGION | jq -r '.FileSystemId') echo "Target EFS volume Created: $TARGET_EFS"
  2. Fügen Sie Variablen für das Amazon EFS-Quellvolume hinzu, das derzeit an die Domain angehängt und von allen Benutzern verwendet wird. Die Amazon Virtual Private Cloud Cloud-Informationen der Domain sind erforderlich, um sicherzustellen, dass das Amazon EFS-Ziel in derselben Amazon-VPC und demselben Subnetz mit derselben Sicherheitsgruppenkonfiguration erstellt wird.

    export SOURCE_EFS=$(aws sagemaker describe-domain --domain-id $SOURCE_DOMAIN_ID | jq -r '.HomeEfsFileSystemId') export VPC_ID=$(aws sagemaker describe-domain --domain-id $SOURCE_DOMAIN_ID | jq -r '.VpcId') echo "EFS managed by SageMaker: $SOURCE_EFS | VPC: $VPC_ID"
  3. Erstellen Sie ein Amazon EFS-Mount-Ziel in derselben Amazon VPC und demselben Subnetz wie das Amazon EFS-Quellvolume mit derselben Sicherheitsgruppenkonfiguration. Es dauert einige Minuten, bis das Mount-Ziel verfügbar ist.

    export EFS_VPC_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].VpcId") export EFS_AZ_NAME=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].AvailabilityZoneName") export EFS_AZ_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].AvailabilityZoneId") export EFS_SUBNET_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].SubnetId") export EFS_MOUNT_TARG_ID=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].MountTargetId") export EFS_SG_IDS=$(aws efs describe-mount-target-security-groups --mount-target-id $EFS_MOUNT_TARG_ID | jq -r '.SecurityGroups[]') aws efs create-mount-target \ --file-system-id $TARGET_EFS \ --subnet-id $EFS_SUBNET_ID \ --security-groups $EFS_SG_IDS
  4. Erstellen Sie Amazon EFS-Quell- und Zielorte für die AWS DataSync Aufgabe.

    export SOURCE_EFS_ARN=$(aws efs describe-file-systems --file-system-id $SOURCE_EFS | jq -r ".FileSystems[0].FileSystemArn") export TARGET_EFS_ARN=$(aws efs describe-file-systems --file-system-id $TARGET_EFS | jq -r ".FileSystems[0].FileSystemArn") export EFS_SUBNET_ID_ARN=$(aws ec2 describe-subnets --subnet-ids $EFS_SUBNET_ID | jq -r ".Subnets[0].SubnetArn") export ACCOUNT_ID=$(aws ec2 describe-security-groups --group-id $EFS_SG_IDS | jq -r ".SecurityGroups[0].OwnerId") export EFS_SG_ID_ARN=arn:aws:ec2:$REGION:$ACCOUNT_ID:security-group/$EFS_SG_IDS export SOURCE_LOCATION_ARN=$(aws datasync create-location-efs --subdirectory "/" --efs-filesystem-arn $SOURCE_EFS_ARN --ec2-config SubnetArn=$EFS_SUBNET_ID_ARN,SecurityGroupArns=$EFS_SG_ID_ARN --region $REGION | jq -r ".LocationArn") export DESTINATION_LOCATION_ARN=$(aws datasync create-location-efs --subdirectory "/" --efs-filesystem-arn $TARGET_EFS_ARN --ec2-config SubnetArn=$EFS_SUBNET_ID_ARN,SecurityGroupArns=$EFS_SG_ID_ARN --region $REGION | jq -r ".LocationArn")
  5. Lassen Sie den Datenverkehr zwischen den Quell- und Ziel-Mounts des Netzwerkdateisystems (NFS) zu. Wenn eine neue Domain erstellt wird, erstellt SageMaker AI zwei Sicherheitsgruppen.

    • NFS-Sicherheitsgruppe für eingehenden Datenverkehr mit nur eingehendem Datenverkehr.

    • Ausgehender NFS-Sicherheitsgruppe mit nur ausgehendem Datenverkehr.

    Das Quell- und das Ziel-NFS befinden sich in denselben Sicherheitsgruppen. Sie können den Verkehr zwischen diesen Mounts vom oder aus zulassen. AWS Management Console AWS CLI

    • Erlaube Verkehr von AWS Management Console

      1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon VPC-Konsole unter https://console.aws.amazon.com/vpc/.

      2. Wählen Sie Security Groups.

      3. Suchen Sie auf der Seite Sicherheitsgruppen nach der ID der vorhandenen Domain.

        d-xxxxxxx

        Die Ergebnisse sollten zwei Sicherheitsgruppen zurückgeben, deren Name die Domänen-ID enthält.

        • security-group-for-inbound-nfs-domain-id

        • security-group-for-outbound-nfs-domain-id

      4. Wählen Sie die Sicherheitsgruppen-ID für eingehende Nachrichten aus. Dadurch wird eine neue Seite mit Details zur Sicherheitsgruppe geöffnet.

      5. Wählen Sie die Registerkarte Ausgehende Regeln aus.

      6. Wählen Sie Regeln für ausgehenden Datenverkehr bearbeiten aus.

      7. Aktualisieren Sie die vorhandenen Regeln für ausgehenden Datenverkehr oder fügen Sie eine neue Regel für ausgehenden Datenverkehr mit den folgenden Werten hinzu:

        • Typ: NFS

        • Protocol (Protokoll): TCP

        • Portbereich: 2049

        • Ziel: security-group-for-outbound -nfs- | domain-id security-group-id

      8. Wählen Sie Save rules (Regeln speichern) aus.

      9. Wählen Sie die Registerkarte Regeln für eingehenden Datenverkehr aus.

      10. Wählen Sie Regeln für eingehenden Datenverkehr bearbeiten aus.

      11. Aktualisieren Sie die vorhandenen Regeln für eingehende Nachrichten oder fügen Sie eine neue Regel für ausgehenden Datenverkehr mit den folgenden Werten hinzu:

        • Typ: NFS

        • Protocol (Protokoll): TCP

        • Portbereich: 2049

        • Ziel: security-group-for-outbound -nfs- | domain-id security-group-id

      12. Wählen Sie Save rules (Regeln speichern) aus.

    • Erlaube Verkehr von AWS CLI

      1. Aktualisieren Sie die Regeln für eingehende und ausgehende Nachrichten der Sicherheitsgruppe mit den folgenden Werten:

        • Protocol (Protokoll): TCP

        • Portbereich: 2049

        • Gruppen-ID: Sicherheitsgruppen-ID für eingehenden Datenverkehr oder Sicherheitsgruppen-ID für ausgehenden Datenverkehr

        export INBOUND_SG_ID=$(aws ec2 describe-security-groups --filters "Name=group-name,Values=security-group-for-inbound-nfs-$SOURCE_DOMAIN_ID" | jq -r ".SecurityGroups[0].GroupId") export OUTBOUND_SG_ID=$(aws ec2 describe-security-groups --filters "Name=group-name,Values=security-group-for-outbound-nfs-$SOURCE_DOMAIN_ID" | jq -r ".SecurityGroups[0].GroupId") echo "Outbound SG ID: $OUTBOUND_SG_ID | Inbound SG ID: $INBOUND_SG_ID" aws ec2 authorize-security-group-egress \ --group-id $INBOUND_SG_ID \ --protocol tcp --port 2049 \ --source-group $OUTBOUND_SG_ID aws ec2 authorize-security-group-ingress \ --group-id $OUTBOUND_SG_ID \ --protocol tcp --port 2049 \ --source-group $INBOUND_SG_ID
      2. Fügen Sie sowohl die Sicherheitsgruppen für eingehenden als auch für ausgehenden Datenverkehr den Quell- und Ziel-Amazon EFS-Mount-Zielen hinzu. Dies ermöglicht den Verkehr zwischen den beiden Amazon EFS-Mounts.

        export SOURCE_EFS_MOUNT_TARGET=$(aws efs describe-mount-targets --file-system-id $SOURCE_EFS | jq -r ".MountTargets[0].MountTargetId") export TARGET_EFS_MOUNT_TARGET=$(aws efs describe-mount-targets --file-system-id $TARGET_EFS | jq -r ".MountTargets[0].MountTargetId") aws efs modify-mount-target-security-groups \ --mount-target-id $SOURCE_EFS_MOUNT_TARGET \ --security-groups $INBOUND_SG_ID $OUTBOUND_SG_ID aws efs modify-mount-target-security-groups \ --mount-target-id $TARGET_EFS_MOUNT_TARGET \ --security-groups $INBOUND_SG_ID $OUTBOUND_SG_ID
  6. Erstellen Sie eine AWS DataSync Aufgabe. Dadurch wird ein Task-ARN zurückgegeben, mit dem die Aufgabe bei Bedarf oder als Teil einer regulären Kadenz ausgeführt werden kann.

    export EXTRA_XFER_OPTIONS='VerifyMode=ONLY_FILES_TRANSFERRED,OverwriteMode=ALWAYS,Atime=NONE,Mtime=NONE,Uid=NONE,Gid=NONE,PreserveDeletedFiles=REMOVE,PreserveDevices=NONE,PosixPermissions=NONE,TaskQueueing=ENABLED,TransferMode=CHANGED,SecurityDescriptorCopyFlags=NONE,ObjectTags=NONE' export DATASYNC_TASK_ARN=$(aws datasync create-task --source-location-arn $SOURCE_LOCATION_ARN --destination-location-arn $DESTINATION_LOCATION_ARN --name "SMEFS_to_CustomEFS_Sync" --region $REGION --options $EXTRA_XFER_OPTIONS | jq -r ".TaskArn")
  7. Starten Sie eine AWS DataSync Aufgabe, um Daten automatisch vom Amazon EFS-Quell-Mount in den Amazon EFS-Ziel-Mount zu kopieren. Dadurch werden die POSIX-Berechtigungen der Datei nicht beibehalten, sodass Benutzer vom Amazon EFS-Ziel-Mount lesen, aber nicht darauf schreiben können.

    aws datasync start-task-execution --task-arn $DATASYNC_TASK_ARN
  8. Mounten Sie das Amazon EFS-Zielvolume auf der Root-Ebene auf der Domain.

    aws sagemaker update-domain --domain-id $SOURCE_DOMAIN_ID \ --default-user-settings '{"CustomFileSystemConfigs": [{"EFSFileSystemConfig": {"FileSystemId": "'"$TARGET_EFS"'", "FileSystemPath": "/"}}]}'
  9. Überschreiben Sie jedes Benutzerprofil mit einem FileSystemPath Präfix. Das Präfix beinhaltet die UID des Benutzers, die von AI erstellt SageMaker wird. Dadurch wird sichergestellt, dass Benutzer nur Zugriff auf ihre Daten haben, und eine Fremdbestäubung wird verhindert. Wenn in der Domain ein Space erstellt und das Amazon EFS-Zielvolume in die Anwendung eingebunden wird, überschreibt das Präfix des Benutzers das Domain-Präfix. Infolgedessen hängt SageMaker AI das /user-id Verzeichnis nur in der Anwendung des Benutzers ein.

    aws sagemaker list-user-profiles --domain-id $SOURCE_DOMAIN_ID | jq -r '.UserProfiles[] | "\(.UserProfileName)"' | while read user; do export uid=$(aws sagemaker describe-user-profile --domain-id $SOURCE_DOMAIN_ID --user-profile-name $user | jq -r ".HomeEfsFileSystemUid") echo "$user $uid" aws sagemaker update-user-profile --domain-id $SOURCE_DOMAIN_ID --user-profile-name $user --user-settings '{"CustomFileSystemConfigs": [{"EFSFileSystemConfig":{"FileSystemId": "'"$TARGET_EFS"'", "FileSystemPath": "'"/$uid/"'"}}]}' done
  10. Benutzer können dann beim Starten einer Anwendung das benutzerdefinierte Amazon EFS-Dateisystem auswählen. Weitere Informationen finden Sie unter JupyterLab benutzerhandbuch oder Starten Sie eine Code-Editor-Anwendung in Studio.

Bei diesem Ansatz verwenden Sie eine Amazon EFS-to-Amazon AWS DataSync S3-Aufgabe, um den Inhalt eines Studio Classic Amazon EFS-Volumes einmal oder in regelmäßigen Abständen in einen Amazon S3 S3-Bucket zu kopieren. Anschließend erstellen Sie eine Lebenszykluskonfiguration, um die Daten des Benutzers von Amazon S3 auf das Amazon EBS-Volume seines privaten Bereichs zu kopieren.

Anmerkung

Dieser Ansatz funktioniert nur für Domains mit Internetzugang.

  1. Geben Sie die Amazon EFS-Quellvolume-ID der Domain ein, die die Daten enthält, die Sie migrieren.

    timestamp=$(date +%Y%m%d%H%M%S) export SOURCE_DOMAIN_ID="domain-id" export REGION="region" export ACCOUNT_ID=$(aws sts get-caller-identity --query Account --output text) export EFS_ID=$(aws sagemaker describe-domain --domain-id $SOURCE_DOMAIN_ID | jq -r '.HomeEfsFileSystemId')
  2. Legen Sie den Namen des Amazon S3 S3-Ziel-Buckets fest. Informationen zum Erstellen eines Amazon S3 S3-Buckets finden Sie unter Bucket erstellen. Der verwendete Bucket muss über eine CORS-Richtlinie verfügen, wie unter beschrieben(Optional) Aktualisieren Sie Ihre CORS-Richtlinie für den Zugriff auf Amazon S3 S3-Buckets. Benutzer in der Domain müssen auch über Berechtigungen für den Zugriff auf den Amazon S3 S3-Bucket verfügen.

    In diesem Beispiel kopieren wir Dateien in ein Präfix mit dem Namenstudio-new. Wenn Sie einen einzelnen Amazon S3 S3-Bucket verwenden, um mehrere Domains zu migrieren, verwenden Sie das studio-new/<domain-id> Präfix, um die Berechtigungen für die Dateien mithilfe von IAM einzuschränken.

    export BUCKET_NAME=s3-bucket-name export S3_DESTINATION_PATH=studio-new
  3. Erstellen Sie eine Vertrauensrichtlinie, die Ihnen die AWS DataSync Erlaubnis erteilt, die Ausführungsrolle Ihres Kontos zu übernehmen.

    export TRUST_POLICY=$(cat <<EOF { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "datasync.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "$ACCOUNT_ID" }, "ArnLike": { "aws:SourceArn": "arn:aws:datasync:$REGION:$ACCOUNT_ID:*" } } } ] } EOF )
  4. Erstellen Sie eine IAM-Rolle und fügen Sie die Vertrauensrichtlinie hinzu.

    export timestamp=$(date +%Y%m%d%H%M%S) export ROLE_NAME="DataSyncS3Role-$timestamp" aws iam create-role --role-name $ROLE_NAME --assume-role-policy-document "$TRUST_POLICY" aws iam attach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonS3FullAccess echo "Attached IAM Policy AmazonS3FullAccess" aws iam attach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess echo "Attached IAM Policy AmazonSageMakerFullAccess" export ROLE_ARN=$(aws iam get-role --role-name $ROLE_NAME --query 'Role.Arn' --output text) echo "Created IAM Role $ROLE_ARN"
  5. Erstellen Sie eine Sicherheitsgruppe, um Zugriff auf den Amazon EFS-Standort zu gewähren.

    export EFS_ARN=$(aws efs describe-file-systems --file-system-id $EFS_ID | jq -r '.FileSystems[0].FileSystemArn' ) export EFS_SUBNET_ID=$(aws efs describe-mount-targets --file-system-id $EFS_ID | jq -r '.MountTargets[0].SubnetId') export EFS_VPC_ID=$(aws efs describe-mount-targets --file-system-id $EFS_ID | jq -r '.MountTargets[0].VpcId') export MOUNT_TARGET_ID=$(aws efs describe-mount-targets --file-system-id $EFS_ID | jq -r '.MountTargets[0].MountTargetId ') export EFS_SECURITY_GROUP_ID=$(aws efs describe-mount-target-security-groups --mount-target-id $MOUNT_TARGET_ID | jq -r '.SecurityGroups[0]') export EFS_SUBNET_ARN=$(aws ec2 describe-subnets --subnet-ids $EFS_SUBNET_ID | jq -r '.Subnets[0].SubnetArn') echo "Subnet ID: $EFS_SUBNET_ID" echo "Security Group ID: $EFS_SECURITY_GROUP_ID" echo "Subnet ARN: $EFS_SUBNET_ARN" timestamp=$(date +%Y%m%d%H%M%S) sg_name="datasync-sg-$timestamp" export DATASYNC_SG_ID=$(aws ec2 create-security-group --vpc-id $EFS_VPC_ID --group-name $sg_name --description "DataSync SG" --output text --query 'GroupId') aws ec2 authorize-security-group-egress --group-id $DATASYNC_SG_ID --protocol tcp --port 2049 --source-group $EFS_SECURITY_GROUP_ID aws ec2 authorize-security-group-ingress --group-id $EFS_SECURITY_GROUP_ID --protocol tcp --port 2049 --source-group $DATASYNC_SG_ID export DATASYNC_SG_ARN="arn:aws:ec2:$REGION:$ACCOUNT_ID:security-group/$DATASYNC_SG_ID" echo "Security Group ARN: $DATASYNC_SG_ARN"
  6. Erstellen Sie einen Amazon EFS-Quellspeicherort für die AWS DataSync Aufgabe.

    export SOURCE_ARN=$(aws datasync create-location-efs --efs-filesystem-arn $EFS_ARN --ec2-config "{\"SubnetArn\": \"$EFS_SUBNET_ARN\", \"SecurityGroupArns\": [\"$DATASYNC_SG_ARN\"]}" | jq -r '.LocationArn') echo "Source Location ARN: $SOURCE_ARN"
  7. Erstellen Sie einen Amazon S3 S3-Zielstandort für die AWS DataSync Aufgabe.

    export BUCKET_ARN="arn:aws:s3:::$BUCKET_NAME" export DESTINATION_ARN=$(aws datasync create-location-s3 --s3-bucket-arn $BUCKET_ARN --s3-config "{\"BucketAccessRoleArn\": \"$ROLE_ARN\"}" --subdirectory $S3_DESTINATION_PATH | jq -r '.LocationArn') echo "Destination Location ARN: $DESTINATION_ARN"
  8. Erstellen Sie eine AWS DataSync Aufgabe.

    export TASK_ARN=$(aws datasync create-task --source-location-arn $SOURCE_ARN --destination-location-arn $DESTINATION_ARN | jq -r '.TaskArn') echo "DataSync Task: $TASK_ARN"
  9. Starte die AWS DataSync Aufgabe. Diese Aufgabe kopiert automatisch Daten vom Amazon EFS-Quellvolume in den Amazon S3-Ziel-Bucket. Warten Sie, bis die Aufgabe abgeschlossen ist.

    aws datasync start-task-execution --task-arn $TASK_ARN
  10. Überprüfen Sie den Status der AWS DataSync Aufgabe, um sicherzustellen, dass sie abgeschlossen ist. Übergeben Sie den im vorherigen Schritt zurückgegebenen ARN.

    export TASK_EXEC_ARN=datasync-task-arn echo "Task execution ARN: $TASK_EXEC_ARN" export STATUS=$(aws datasync describe-task-execution --task-execution-arn $TASK_EXEC_ARN | jq -r '.Status') echo "Execution status: $STATUS" while [ "$STATUS" = "QUEUED" ] || [ "$STATUS" = "LAUNCHING" ] || [ "$STATUS" = "PREPARING" ] || [ "$STATUS" = "TRANSFERRING" ] || [ "$STATUS" = "VERIFYING" ]; do STATUS=$(aws datasync describe-task-execution --task-execution-arn $TASK_EXEC_ARN | jq -r '.Status') if [ $? -ne 0 ]; then echo "Error Running DataSync Task" exit 1 fi echo "Execution status: $STATUS" sleep 30 done
  11. Nachdem die AWS DataSync Aufgabe abgeschlossen ist, bereinigen Sie die zuvor erstellten Ressourcen.

    aws datasync delete-task --task-arn $TASK_ARN echo "Deleted task $TASK_ARN" aws datasync delete-location --location-arn $SOURCE_ARN echo "Deleted location source $SOURCE_ARN" aws datasync delete-location --location-arn $DESTINATION_ARN echo "Deleted location source $DESTINATION_ARN" aws iam detach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonS3FullAccess aws iam detach-role-policy --role-name $ROLE_NAME --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess aws iam delete-role --role-name $ROLE_NAME echo "Deleted IAM Role $ROLE_NAME" echo "Wait 5 minutes for the elastic network interface to detach..." start_time=$(date +%s) while [[ $(($(date +%s) - start_time)) -lt 300 ]]; do sleep 1 done aws ec2 revoke-security-group-ingress --group-id $EFS_SECURITY_GROUP_ID --protocol tcp --port 2049 --source-group $DATASYNC_SG_ID echo "Revoked Ingress from $EFS_SECURITY_GROUP_ID" aws ec2 revoke-security-group-egress --group-id $DATASYNC_SG_ID --protocol tcp --port 2049 --source-group $EFS_SECURITY_GROUP_ID echo "Revoked Egress from $DATASYNC_SG_ID" aws ec2 delete-security-group --group-id $DATASYNC_SG_ID echo "Deleted DataSync SG $DATASYNC_SG_ID"
  12. Erstellen Sie auf Ihrem lokalen Rechner eine Datei namens on-start.sh mit folgendem Inhalt. Dieses Skript kopiert das Amazon EFS-Home-Verzeichnis des Benutzers in Amazon S3 auf das Amazon EBS-Volume des Benutzers in Studio und erstellt ein Präfix für jedes Benutzerprofil.

    #!/bin/bash set -eo pipefail sudo apt-get install -y jq # Studio Variables DOMAIN_ID=$(cat /opt/ml/metadata/resource-metadata.json | jq -r '.DomainId') SPACE_NAME=$(cat /opt/ml/metadata/resource-metadata.json | jq -r '.SpaceName') USER_PROFILE_NAME=$(aws sagemaker describe-space --domain-id=$DOMAIN_ID --space-name=$SPACE_NAME | jq -r '.OwnershipSettings.OwnerUserProfileName') # S3 bucket to copy from BUCKET=s3-bucket-name # Subfolder in bucket to copy PREFIX=studio-new # Getting HomeEfsFileSystemUid for the current user-profile EFS_FOLDER_ID=$(aws sagemaker describe-user-profile --domain-id $DOMAIN_ID --user-profile-name $USER_PROFILE_NAME | jq -r '.HomeEfsFileSystemUid') # Local destination directory DEST=./studio-classic-efs-backup mkdir -p $DEST echo "Bucket: s3://$BUCKET/$PREFIX/$EFS_FOLDER_ID/" echo "Destination $DEST/" echo "Excluding .*" echo "Excluding .*/*" aws s3 cp s3://$BUCKET/$PREFIX/$EFS_FOLDER_ID/ $DEST/ \ --exclude ".*" \ --exclude "**/.*" \ --recursive
  13. Konvertieren Sie Ihr Skript in das Base64-Format. Diese Anforderung verhindert Fehler, die bei der Kodierung von Leerzeichen und Zeilenumbrüchen auftreten. Der Skripttyp kann entweder JupyterLab oder CodeEditor sein.

    export LCC_SCRIPT_NAME='studio-classic-sync' export SCRIPT_FILE_NAME='on-start.sh' export SCRIPT_TYPE='JupyterLab-or-CodeEditor' LCC_CONTENT=`openssl base64 -A -in ${SCRIPT_FILE_NAME}`
  14. Überprüfen Sie Folgendes, bevor Sie das Skript verwenden:

    • Das Amazon EBS-Volume ist groß genug, um die Objekte zu speichern, die Sie exportieren.

    • Sie migrieren keine versteckten Dateien und Ordner, z. B. .bashrc .condarc wenn Sie dies nicht beabsichtigen.

    • Für die Ausführungsrolle AWS Identity and Access Management (IAM), die mit Studio-Benutzerprofilen verknüpft ist, sind die Richtlinien so konfiguriert, dass sie nur auf das jeweilige Home-Verzeichnis in Amazon S3 zugreifen.

  15. Erstellen Sie mithilfe Ihres Skripts eine Lebenszykluskonfiguration.

    aws sagemaker create-studio-lifecycle-config \ --studio-lifecycle-config-name $LCC_SCRIPT_NAME \ --studio-lifecycle-config-content $LCC_CONTENT \ --studio-lifecycle-config-app-type $SCRIPT_TYPE
  16. Hängen Sie das LCC an Ihre Domain an.

    aws sagemaker update-domain \ --domain-id $SOURCE_DOMAIN_ID \ --default-user-settings ' {"JupyterLabAppSettings": {"LifecycleConfigArns": [ "lifecycle-config-arn" ] } }'
  17. Benutzer können dann das LCC-Skript auswählen, wenn sie eine Anwendung starten. Weitere Informationen finden Sie unter JupyterLab benutzerhandbuch oder Starten Sie eine Code-Editor-Anwendung in Studio. Dadurch werden die Dateien von Amazon S3 automatisch mit dem Amazon EBS-Speicher für den Speicherplatz des Benutzers synchronisiert.

Migrieren Sie Datenflüsse aus Data Wrangler

Wenn Sie Amazon SageMaker Data Wrangler zuvor in Amazon SageMaker Studio Classic für Datenvorbereitungsaufgaben verwendet haben, können Sie auf das neue Amazon SageMaker Studio migrieren und auf die neueste Version von Data Wrangler in Amazon Canvas zugreifen. SageMaker Data Wrangler in SageMaker Canvas bietet Ihnen eine verbesserte Benutzererfahrung und Zugriff auf die neuesten Funktionen, wie z. B. eine Benutzeroberfläche in natürlicher Sprache und eine schnellere Leistung.

Sie können jederzeit in SageMaker Canvas einsteigen, um das neue Data Wrangler-Erlebnis zu nutzen. Weitere Informationen finden Sie unter Erste Schritte mit Amazon SageMaker Canvas.

Wenn Sie Datenflussdateien in Studio Classic gespeichert haben, an denen Sie zuvor gearbeitet haben, können Sie sie in Studio integrieren und die Flow-Dateien dann in Canvas importieren. Sie haben die folgenden Optionen für die Migration:

  • Migration mit einem Klick: Wenn Sie sich bei Canvas anmelden, können Sie eine einmalige Importoption verwenden, mit der alle Ihre Flow-Dateien in Ihrem Namen migriert werden.

  • Manuelle Migration: Sie können Ihre Flow-Dateien manuell in Canvas importieren. Exportieren Sie die Dateien von Studio Classic aus entweder nach Amazon S3 oder laden Sie sie auf Ihren lokalen Computer herunter. Anschließend melden Sie sich bei der SageMaker Canvas-Anwendung an, importieren die Flow-Dateien und setzen Ihre Datenvorbereitungsaufgaben fort.

In der folgenden Anleitung werden die Voraussetzungen für die Migration und die Migration Ihrer Datenflussdateien mit der Option mit einem Klick oder manuell beschrieben.

Voraussetzungen

Überprüfen Sie die folgenden Voraussetzungen, bevor Sie mit der Migration Ihrer Flow-Dateien beginnen.

Schritt 1. Migrieren Sie die Domain und gewähren Sie Berechtigungen

Bevor Sie Datenflussdateien migrieren, müssen Sie bestimmte Schritte des Migration von Amazon SageMaker Studio Classic Handbuchs befolgen, um sicherzustellen, dass die AWS IAM-Ausführungsrolle Ihres Benutzerprofils über die erforderlichen Berechtigungen verfügt. Folgen Sie den Voraussetzungen und Migrieren Sie die Benutzeroberfläche von Studio Classic zu Studio bevor Sie fortfahren, in denen beschrieben wird, wie Sie die erforderlichen Berechtigungen erteilen, Studio als neues Erlebnis konfigurieren und Ihre bestehende Domain migrieren.

Insbesondere benötigen Sie die erforderlichen Berechtigungen, um eine SageMaker Canvas-Anwendung zu erstellen und die SageMaker Canvas-Datenvorbereitungsfunktionen zu verwenden. Um diese Berechtigungen zu erhalten, können Sie entweder:

Stellen Sie sicher, dass Sie dasselbe Benutzerprofil für Studio und Canvas verwenden. SageMaker

Nachdem Sie die im Migrationsleitfaden beschriebenen Voraussetzungen erfüllt haben, sollten Sie über eine neue Domain mit den erforderlichen Berechtigungen für den Zugriff auf SageMaker Canvas über Studio verfügen.

Schritt 2. (Optional) Bereiten Sie einen Amazon S3 S3-Standort vor

Wenn Sie eine manuelle Migration durchführen und planen, Amazon S3 für die Übertragung Ihrer Flow-Dateien zu verwenden, anstatt die lokale Download-Option zu verwenden, sollten Sie einen Amazon S3 S3-Bucket in Ihrem Konto haben, den Sie zum Speichern der Flow-Dateien verwenden möchten.

Migrationsmethode mit einem Klick

SageMaker Canvas bietet eine einmalige Importoption für die Migration Ihrer Datenflüsse von Data Wrangler in Studio Classic zu Data Wrangler in Canvas. SageMaker Solange Ihre Studio Classic- und Canvas-Anwendungen dasselbe Amazon EFS-Speichervolume verwenden, können Sie mit einem Klick von Canvas aus migrieren. Dieser optimierte Prozess macht manuelle Export- und Importschritte überflüssig, und Sie können alle Ihre Flows auf einmal importieren.

Gehen Sie wie folgt vor, um alle Ihre Flow-Dateien zu migrieren:

  1. Öffnen Sie Ihre neueste Version von Studio.

  2. Wählen Sie in Studio im linken Navigationsbereich das Dropdownmenü Daten aus.

  3. Wählen Sie in den Navigationsoptionen Data Wrangler aus.

  4. Wählen Sie auf der Data Wrangler-Seite die Option In Canvas ausführen aus. Wenn Sie die Berechtigungen erfolgreich eingerichtet haben, wird eine Canvas-Anwendung für Sie erstellt. Es kann einige Minuten dauern, bis die Canvas-Anwendung fertig ist.

  5. Wenn Canvas bereit ist, wählen Sie In Canvas öffnen.

  6. Canvas wird mit der Data Wrangler-Seite geöffnet, und oben auf der Seite wird ein Banner mit der Aufschrift Importieren Sie Ihre Datenflüsse aus Data Wrangler in Studio Classic nach Canvas angezeigt. Dies ist ein einmaliger Import. Weitere Informationen. Wählen Sie im Banner die Option Alle importieren aus.

    Warnung

    Wenn Sie die Banner-Benachrichtigung schließen, können Sie sie nicht mehr öffnen oder die Ein-Klick-Migrationsmethode verwenden.

Eine Popup-Benachrichtigung wird angezeigt, die darauf hinweist, dass Canvas Ihre Flow-Dateien aus Studio Classic importiert. Wenn der Import vollständig erfolgreich ist, erhalten Sie eine weitere Benachrichtigung, dass die X Anzahl der Flow-Dateien importiert wurde, und Sie können Ihre Flow-Dateien auf der Data Wrangler-Seite der Canvas-Anwendung sehen. Alle importierten Flow-Dateien, die denselben Namen wie bestehende Datenflüsse in Ihrer Canvas-Anwendung haben, werden mit einem Postfix umbenannt. Sie können einen Datenfluss öffnen, um zu überprüfen, ob er wie erwartet aussieht.

Falls eine Ihrer Schemadateien nicht erfolgreich importiert werden kann, erhalten Sie eine Benachrichtigung, dass der Import entweder teilweise erfolgreich war oder fehlgeschlagen ist. Wählen Sie in der Benachrichtigung die Option Fehler anzeigen aus, um in den einzelnen Fehlermeldungen nach Anleitungen zur Neuformatierung falsch formatierter Flow-Dateien zu suchen.

Nach dem Import Ihrer Flow-Dateien sollten Sie Data Wrangler nun weiterhin verwenden können, um Daten in Canvas vorzubereiten. SageMaker

Manuelle Migrationsmethode

In den folgenden Abschnitten wird beschrieben, wie Sie Ihre Flow-Dateien manuell in Canvas importieren, falls die Migrationsmethode mit einem Klick nicht funktioniert hat.

Exportieren Sie die Flow-Dateien aus Studio Classic

Anmerkung

Wenn Sie Ihre Studio Classic-Daten bereits zu Amazon S3 migriert haben, indem Sie den Anweisungen unter gefolgt sind(Optional) Migrieren Sie Daten von Studio Classic zu Studio, können Sie diesen Schritt überspringen und direkt zu dem Importieren Sie die Flow-Dateien in Canvas Abschnitt gehen, in dem Sie Ihre Flow-Dateien vom Amazon S3 S3-Speicherort importieren, an dem Ihre Studio Classic-Daten gespeichert sind.

Sie können Ihre Flow-Dateien exportieren, indem Sie sie entweder in Amazon S3 speichern oder auf Ihren lokalen Computer herunterladen. Wenn Sie im nächsten Schritt Ihre Flow-Dateien in SageMaker Canvas importieren und die lokale Upload-Option wählen, können Sie nur 20 Flow-Dateien gleichzeitig hochladen. Wenn Sie eine große Anzahl von Flow-Dateien importieren müssen, empfehlen wir Ihnen, stattdessen Amazon S3 zu verwenden.

Folgen Sie den Anweisungen unter entweder Methode 1: Verwenden Sie Amazon S3, um Flow-Dateien zu übertragen oderMethode 2: Verwenden Sie Ihren lokalen Computer, um Flow-Dateien zu übertragen, um fortzufahren.

Methode 1: Verwenden Sie Amazon S3, um Flow-Dateien zu übertragen

Mit dieser Methode verwenden Sie Amazon S3 als Vermittler zwischen Data Wrangler in Studio Classic und Data Wrangler in SageMaker Canvas (Zugriff über die neueste Version von Studio). Sie exportieren die Flow-Dateien von Studio Classic nach Amazon S3 und greifen dann im nächsten Schritt über Studio auf Canvas zu und importieren die Flow-Dateien aus Amazon S3.

Stellen Sie sicher, dass Sie einen Amazon S3 S3-Bucket als Speicherort für die Flow-Dateien vorbereitet haben.

Gehen Sie wie folgt vor, um Ihre Flow-Dateien von Studio Classic nach Amazon S3 zu exportieren:

  1. Öffnen Sie Studio Classic.

  2. Öffnen Sie ein neues Terminal, indem Sie wie folgt vorgehen:

    1. Wählen Sie in der oberen Navigationsleiste Datei.

    2. Zeigen Sie im Kontextmenü mit der Maus auf Neu und wählen Sie dann Terminal aus.

  3. Standardmäßig sollte das Terminal in Ihrem Home-Verzeichnis geöffnet werden. Navigieren Sie zu dem Ordner, der alle Flow-Dateien enthält, die Sie migrieren möchten.

  4. Verwenden Sie den folgenden Befehl, um alle Flow-Dateien mit dem angegebenen Amazon S3 S3-Speicherort zu synchronisieren. Ersetzen Sie {bucket-name} und {folder} durch den Pfad zu Ihrem gewünschten Amazon S3 S3-Standort. Weitere Informationen zu dem Befehl und den Parametern finden Sie unter dem Befehl sync in der AWS AWS CLI Befehlsreferenz.

    aws s3 sync . s3://{bucket-name}/{folder}/ --exclude "*.*" --include "*.flow"

    Wenn Sie Ihren eigenen Befehl verwenden AWS KMS key, verwenden Sie stattdessen den folgenden Befehl, um die Dateien zu synchronisieren, und geben Sie Ihre KMS-Schlüssel-ID an. Stellen Sie sicher, dass die IAM-Ausführungsrolle des Benutzers (bei der es sich um dieselbe Rolle handeln sollte, die in Schritt 1 verwendet wurde). Die Domäne migrieren und die oben genannten Berechtigungen gewähren (Voraussetzungen) wurde der Zugriff zur Verwendung des KMS-Schlüssels gewährt.

    aws s3 sync . s3://{bucket-name}/{folder}/ --exclude "*.*" --include "*.flow" --sse-kms-key-id {your-key-id}

Ihre Flow-Dateien sollten jetzt exportiert werden. Sie können Ihren Amazon S3 S3-Bucket überprüfen, um sicherzustellen, dass die Flow-Dateien erfolgreich synchronisiert wurden.

Um diese Dateien in die neueste Version von Data Wrangler zu importieren, folgen Sie den Schritten unter. Importieren Sie die Flow-Dateien in Canvas

Methode 2: Verwenden Sie Ihren lokalen Computer, um Flow-Dateien zu übertragen

Mit dieser Methode laden Sie die Flow-Dateien von Studio Classic auf Ihren lokalen Computer herunter. Sie können die Dateien direkt herunterladen oder sie als ZIP-Archiv komprimieren. Anschließend entpacken Sie die ZIP-Datei lokal (falls zutreffend), melden sich bei Canvas an und importieren die Flow-Dateien, indem Sie sie von Ihrem lokalen Computer hochladen.

Gehen Sie wie folgt vor, um Ihre Flow-Dateien von Studio Classic herunterzuladen:

  1. Öffnen Sie Studio Classic.

  2. (Optional) Wenn Sie mehrere Flow-Dateien in ein ZIP-Archiv komprimieren und alle auf einmal herunterladen möchten, gehen Sie wie folgt vor:

    1. Wählen Sie in der oberen Navigationsleiste von Studio Classic die Option Datei aus.

    2. Zeigen Sie im Kontextmenü mit der Maus auf Neu und wählen Sie dann Terminal aus.

    3. Standardmäßig wird das Terminal in Ihrem Home-Verzeichnis geöffnet. Navigieren Sie zu dem Ordner, der alle Flow-Dateien enthält, die Sie migrieren möchten.

    4. Verwenden Sie den folgenden Befehl, um die Flow-Dateien im aktuellen Verzeichnis als ZIP-Datei zu packen. Der Befehl schließt alle versteckten Dateien aus:

      find . -not -path "*/.*" -name "*.flow" -print0 | xargs -0 zip my_archive.zip
  3. Laden Sie das ZIP-Archiv oder einzelne Flow-Dateien wie folgt auf Ihren lokalen Computer herunter:

    1. Wählen Sie im linken Navigationsbereich von Studio Classic die Option Dateibrowser aus.

    2. Suchen Sie im Dateibrowser nach der Datei, die Sie herunterladen möchten.

    3. Klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie im Kontextmenü die Option Herunterladen.

Die Datei sollte auf Ihren lokalen Computer heruntergeladen werden. Wenn Sie sie als ZIP-Archiv gepackt haben, extrahieren Sie die Dateien lokal. Gehen Sie nach dem Extrahieren der Dateien wie unter beschrieben vor, um diese Dateien in die neueste Version von Data Wrangler zu importieren. Importieren Sie die Flow-Dateien in Canvas

Importieren Sie die Flow-Dateien in Canvas

Nachdem Sie Ihre Flow-Dateien exportiert haben, greifen Sie über Studio auf Canvas zu und importieren Sie die Dateien.

Gehen Sie wie folgt vor, um Flow-Dateien in Canvas zu importieren:

  1. Öffnen Sie Ihre neueste Version von Studio.

  2. Wählen Sie in Studio im linken Navigationsbereich das Dropdownmenü Daten aus.

  3. Wählen Sie in den Navigationsoptionen Data Wrangler aus.

  4. Wählen Sie auf der Data Wrangler-Seite die Option In Canvas ausführen aus. Wenn Sie die Berechtigungen erfolgreich eingerichtet haben, wird eine Canvas-Anwendung für Sie erstellt. Es kann einige Minuten dauern, bis die Canvas-Anwendung fertig ist.

  5. Wenn Canvas bereit ist, wählen Sie In Canvas öffnen.

  6. Canvas öffnet die Data Wrangler-Seite. Wählen Sie im oberen Bereich die Option Datenflüsse importieren aus.

  7. Wählen Sie als Datenquelle entweder Amazon S3 oder Lokaler Upload aus.

  8. Wählen Sie Ihre Flow-Dateien aus Ihrem Amazon S3 S3-Bucket aus oder laden Sie die Dateien von Ihrem lokalen Computer hoch.

    Anmerkung

    Für den lokalen Upload können Sie maximal 20 Flow-Dateien gleichzeitig hochladen. Verwenden Sie für größere Importe Amazon S3. Wenn Sie einen Ordner für den Import auswählen, werden alle Flow-Dateien in Unterordnern ebenfalls importiert.

  9. Wählen Sie Daten importieren.

Wenn der Import erfolgreich war, erhalten Sie eine Benachrichtigung, dass die X Anzahl der Flow-Dateien erfolgreich importiert wurde.

Falls Ihre Flow-Dateien nicht erfolgreich importiert werden können, erhalten Sie in der SageMaker Canvas-Anwendung eine Benachrichtigung. Wählen Sie in der Benachrichtigung die Option Fehler anzeigen aus, um in den einzelnen Fehlermeldungen nach Anleitungen zur Neuformatierung falsch formatierter Flow-Dateien zu suchen.

Nachdem Ihre Flow-Dateien importiert wurden, rufen Sie die Data Wrangler-Seite der SageMaker Canvas-Anwendung auf, um Ihre Datenflüsse anzusehen. Sie können versuchen, einen Datenfluss zu öffnen, um zu überprüfen, ob er wie erwartet aussieht.