Gewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Gewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus

Amazon SageMaker Canvas-Benutzer, die mit Datensätzen arbeiten, die größer als 10 GB im CSV Format oder 2,5 GB im Parquet-Format sind, benötigen spezielle Berechtigungen für die Verarbeitung großer Datenmengen. Diese Berechtigungen sind für die Verwaltung großer Datenmengen während des gesamten Lebenszyklus des maschinellen Lernens unerlässlich. Wenn Datensätze die angegebenen Schwellenwerte oder die lokale Speicherkapazität der Anwendung überschreiten, verwendet SageMaker Canvas Amazon EMR Serverless für eine effiziente Verarbeitung. Das gilt für:

  • Datenimport: Import großer Datensätze mit Zufallsstichproben oder geschichteten Stichproben.

  • Datenvorbereitung: Exportieren verarbeiteter Daten aus Data Wrangler in Canvas nach Amazon S3, in einen neuen Canvas-Datensatz oder in ein Canvas-Modell.

  • Modellbildung: Trainieren von Modellen an großen Datensätzen.

  • Inferenz: Vorhersagen anhand großer Datensätze treffen.

Standardmäßig verwendet SageMaker Canvas EMR Serverless, um diese Remote-Jobs mit den folgenden App-Einstellungen auszuführen:

  • Vorinitialisierte Kapazität: Nicht konfiguriert

  • Anwendungsgrenzen: Maximale Kapazität von 400vCPUs, maximal 16 gleichzeitig vCPUs pro Konto, 3000 GB Arbeitsspeicher, 20000 GB Festplatte

  • Metastore-Konfiguration: AWS Glue Data Catalog

  • Anwendungsprotokolle: AWS verwalteter Speicher (aktiviert) unter Verwendung eines AWS eigenen Verschlüsselungsschlüssels

  • Verhalten der Anwendung: Startet automatisch, wenn der Job eingereicht wird, und stoppt automatisch, wenn die Anwendung 15 Minuten lang inaktiv ist

Um diese umfangreichen Datenverarbeitungsfunktionen zu aktivieren, benötigen Benutzer die erforderlichen Berechtigungen, die über die SageMaker Amazon-Domain-Einstellungen erteilt werden können. Die Methode zur Erteilung dieser Berechtigungen hängt davon ab, wie Ihre SageMaker Amazon-Domain ursprünglich eingerichtet wurde. Wir werden drei Hauptszenarien behandeln:

  • Schnelles Einrichten der Domain

  • Benutzerdefiniertes Domain-Setup (mit öffentlichem Internetzugang/ohneVPC)

  • Benutzerdefiniertes Domain-Setup (mit VPC und ohne öffentlichen Internetzugang)

Für jedes Szenario sind spezifische Schritte erforderlich, um sicherzustellen, dass Benutzer über die erforderlichen Berechtigungen verfügen, um EMR Serverless für die Verarbeitung großer Datenmengen über den gesamten Lebenszyklus des maschinellen Lernens in SageMaker Canvas zu nutzen.

Szenario 1: Schnelle Domäneneinrichtung

Wenn Sie bei der Erstellung Ihrer SageMaker Domain die Option Schnelleinrichtung verwendet haben, gehen Sie wie folgt vor:

  1. Navigieren Sie zu den SageMaker Amazon-Domain-Einstellungen:

    1. Öffnen Sie die SageMaker Amazon-Konsole unter https://console.aws.amazon.com/sagemaker/.

    2. Wählen Sie im linken Navigationsbereich die Option Domains aus.

    3. Wählen Sie Ihre Domain aus.

    4. Wählen Sie den Tab App-Konfigurationen.

    5. Scrollen Sie zum Bereich Canvas und wählen Sie Bearbeiten.

  2. Aktivieren Sie die Verarbeitung großer Datenmengen:

    1. Aktivieren Sie im Abschnitt Konfiguration für die Verarbeitung großer Datenmengen die Option EMRServerlos für die Verarbeitung großer Datenmengen aktivieren.

    2. Erstellen Sie eine EMR serverlose Rolle, oder wählen Sie sie aus:

      1. Wählen Sie Neue Ausführungsrolle erstellen und verwenden aus, um eine neue IAM Rolle zu erstellen, der eine Vertrauensbeziehung mit EMR Serverless und der zugehörigen AWS verwaltete Richtlinie: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy Richtlinie besteht. Diese IAM Rolle wird von Canvas übernommen, um EMR serverlose Jobs zu erstellen.

      2. Wenn Sie bereits über eine Ausführungsrolle mit einer Vertrauensstellung für EMR Serverless verfügen, wählen Sie alternativ die Option Bestehende Ausführungsrolle verwenden und wählen Sie Ihre Rolle aus der Dropdownliste aus.

        • Die bestehende Rolle muss einen Namen haben, der mit dem Präfix beginnt. AmazonSageMakerCanvasEMRSExecutionAccess-

        • Die von Ihnen ausgewählte Rolle sollte außerdem mindestens über die in der AWS verwaltete Richtlinie: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy Richtlinie beschriebenen Berechtigungen verfügen.

        • Die Rolle sollte über eine EMR serverlose Vertrauensrichtlinie verfügen, wie unten dargestellt:

          { "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "<your-account-id>" } } } ] }
  3. (Optional) Fügen Sie Amazon S3 S3-Berechtigungen für benutzerdefinierte Amazon S3 S3-Buckets hinzu:

    1. Die von Canvas verwaltete Richtlinie gewährt automatisch Lese- und Schreibberechtigungen für Amazon S3 S3-Buckets mit sagemaker oder SageMaker in deren Namen. Es gewährt auch Leseberechtigungen für Objekte in benutzerdefinierten Amazon S3 S3-Buckets mit dem Tag"SageMaker": "true".

    2. Für benutzerdefinierte Amazon S3 S3-Buckets ohne das erforderliche Tag fügen Sie Ihrer EMR Serverless-Rolle die folgende Richtlinie hinzu:

    3. { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
    4. Wir empfehlen, die Berechtigungen auf bestimmte Amazon S3 S3-Buckets zu beschränken, auf die Canvas zugreifen soll.

  4. Speichern Sie Ihre Änderungen und starten Sie Ihre SageMaker Canvas-Anwendung neu.

Szenario 2: Benutzerdefiniertes Domain-Setup (mit öffentlichem Internetzugang/ohneVPC)

Wenn Sie eine benutzerdefinierte Domain erstellt haben oder verwenden, folgen Sie den Schritten 1—3 aus Szenario 1 und führen Sie dann die folgenden zusätzlichen Schritte aus:

  1. Fügen Sie Ihrer SageMaker Amazon-Ausführungsrolle Berechtigungen für den ECR DescribeImages Amazon-Betrieb hinzu, da Canvas öffentliche Amazon ECR Docker-Images für die Datenvorbereitung und das Modelltraining verwendet:

    1. Melden Sie sich bei der AWS Konsole an und öffnen Sie die IAM Konsole unter. https://console.aws.amazon.com/iam/

    2. Wählen Sie Roles.

    3. Suchen Sie im Suchfeld anhand des Namens nach Ihrer SageMaker Ausführungsrolle und wählen Sie sie aus.

    4. Fügen Sie Ihrer SageMaker Ausführungsrolle die folgende Richtlinie hinzu. Dies kann entweder durch Hinzufügen als neue Inline-Richtlinie oder durch Anfügen der Richtlinienaussage an eine bestehende Richtlinie geschehen. Beachten Sie, dass einer IAM Rolle maximal 10 Richtlinien angehängt werden können.

      { "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
  2. Speichern Sie Ihre Änderungen und starten Sie Ihre SageMaker Canvas-Anwendung neu.

Szenario 3: Benutzerdefiniertes Domain-Setup (mit VPC und ohne öffentlichen Internetzugang)

Wenn du eine benutzerdefinierte Domain erstellt hast oder verwendest, befolge alle Schritte aus Szenario 2 und befolge dann diese zusätzlichen Schritte:

  1. Stellen Sie sicher, dass Ihre VPC Subnetze privat sind:

    1. Stellen Sie sicher, dass die Routing-Tabelle für Ihre Subnetze keinen Eintrag enthält0.0.0.0/0, der einem Internet Gateway zugeordnet ist.

  2. Fügen Sie Berechtigungen für die Erstellung von Netzwerkschnittstellen hinzu:

    1. Wenn Sie SageMaker Canvas mit EMR Serverless für die Verarbeitung großer Datenmengen verwenden, benötigt EMR Serverless die Möglichkeit, Amazon zu erstellen, EC2 ENIs um die Netzwerkkommunikation zwischen EMR serverlosen Anwendungen und Ihren Ressourcen zu ermöglichen. VPC

    2. Fügen Sie Ihrer SageMaker Amazon-Ausführungsrolle die folgende Richtlinie hinzu. Dies kann entweder geschehen, indem Sie sie als neue Inline-Richtlinie hinzufügen oder indem Sie die Richtlinienerklärung an eine bestehende Richtlinie anhängen. Beachten Sie, dass einer IAM Rolle maximal 10 Richtlinien angehängt werden können.

      { "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
  3. (Optional) Beschränken Sie die ENI Erstellung auf bestimmte Subnetze:

    1. Um Ihr Setup weiter zu sichern, indem Sie die Erstellung ENIs auf bestimmte Subnetze in Ihrem beschränkenVPC, können Sie jedes Subnetz mit bestimmten Bedingungen kennzeichnen.

    2. Verwenden Sie die folgende IAM Richtlinie, um sicherzustellen, dass EMR serverlose Anwendungen Amazon nur EC2 ENIs innerhalb der zulässigen Subnetze und Sicherheitsgruppen erstellen können:

      { "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
  4. Folgen Sie den Schritten auf der SeiteAmazon SageMaker Canvas VPC ohne Internetzugang konfigurieren, um den VPC Endpunkt für Amazon S3 festzulegen, der für EMR Serverless und andere AWS Dienste, die von SageMaker Canvas verwendet werden, erforderlich ist.

  5. Speichern Sie Ihre Änderungen und starten Sie Ihre SageMaker Canvas-Anwendung neu.

Wenn Sie diese Schritte ausführen, können Sie die Verarbeitung großer Datenmengen in SageMaker Canvas für verschiedene Domain-Setups aktivieren, auch für solche mit benutzerdefinierten VPC Konfigurationen. Denken Sie daran, Ihre SageMaker Canvas-Anwendung neu zu starten, nachdem Sie diese Änderungen vorgenommen haben, um die neuen Berechtigungen zu übernehmen.