Gewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Gewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus

Amazon SageMaker Canvas-Benutzer, die mit Datensätzen arbeiten, die größer als 10 GB im CSV-Format oder 2,5 GB im Parquet-Format sind, benötigen spezielle Berechtigungen für die Verarbeitung großer Datenmengen. Diese Berechtigungen sind für die Verwaltung großer Datenmengen während des gesamten Lebenszyklus des maschinellen Lernens unerlässlich. Wenn Datensätze die angegebenen Schwellenwerte oder die lokale Speicherkapazität der Anwendung überschreiten, verwendet SageMaker Canvas Amazon EMR Serverless für eine effiziente Verarbeitung. Das gilt für:

  • Datenimport: Import großer Datensätze mit Zufallsstichproben oder geschichteten Stichproben.

  • Datenvorbereitung: Exportieren verarbeiteter Daten aus Data Wrangler in Canvas nach Amazon S3, in einen neuen Canvas-Datensatz oder in ein Canvas-Modell.

  • Modellbildung: Trainieren von Modellen an großen Datensätzen.

  • Inferenz: Vorhersagen anhand großer Datensätze treffen.

Standardmäßig verwendet SageMaker Canvas EMR Serverless, um diese Remote-Jobs mit den folgenden App-Einstellungen auszuführen:

  • Vorinitialisierte Kapazität: Nicht konfiguriert

  • Anwendungsgrenzen: Maximale Kapazität von 400 VCPUs, maximal 16 V gleichzeitig CPUs pro Konto, 3000 GB Arbeitsspeicher, 20000 GB Festplatte

  • Metastore-Konfiguration: AWS Glue Data Catalog

  • Anwendungsprotokolle: AWS verwalteter Speicher (aktiviert) unter Verwendung eines AWS eigenen Verschlüsselungsschlüssels

  • Verhalten der Anwendung: Startet automatisch, wenn der Job eingereicht wird, und stoppt automatisch, wenn die Anwendung 15 Minuten lang inaktiv ist

Um diese umfangreichen Datenverarbeitungsfunktionen zu aktivieren, benötigen Benutzer die erforderlichen Berechtigungen, die über die Amazon SageMaker AI-Domaineinstellungen erteilt werden können. Die Methode zur Erteilung dieser Berechtigungen hängt davon ab, wie Ihre Amazon SageMaker AI-Domain ursprünglich eingerichtet wurde. Wir werden drei Hauptszenarien behandeln:

  • Schnelle Domaineinrichtung

  • Benutzerdefiniertes Domain-Setup (mit öffentlichem Internetzugang/ohne VPC)

  • Benutzerdefiniertes Domain-Setup (mit VPC und ohne öffentlichen Internetzugang)

Jedes Szenario erfordert spezifische Schritte, um sicherzustellen, dass Benutzer über die erforderlichen Berechtigungen verfügen, um EMR Serverless für die Verarbeitung großer Datenmengen über den gesamten Lebenszyklus des maschinellen Lernens in SageMaker Canvas zu nutzen.

Szenario 1: Schnelle Domäneneinrichtung

Wenn Sie bei der Erstellung Ihrer SageMaker AI-Domain die Option Schnelleinrichtung verwendet haben, gehen Sie wie folgt vor:

  1. Navigieren Sie zu den Amazon SageMaker AI-Domaineinstellungen:

    1. Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.

    2. Wählen Sie im linken Navigationsbereich die Option Domains aus.

    3. Wählen Sie Ihre Domain aus.

    4. Wählen Sie den Tab App-Konfigurationen.

    5. Scrollen Sie zum Bereich Canvas und wählen Sie Bearbeiten.

  2. Aktivieren Sie die Verarbeitung großer Datenmengen:

    1. Aktivieren Sie im Abschnitt Konfiguration für die Verarbeitung großer Datenmengen die Option EMR Serverless für die Verarbeitung großer Datenmengen aktivieren.

    2. Erstellen Sie eine serverlose EMR-Rolle oder wählen Sie sie aus:

      1. Wählen Sie Create and use a new execution role aus, um eine neue IAM-Rolle zu erstellen, die über eine Vertrauensbeziehung mit EMR Serverless und der AWS verwaltete Richtlinie: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy angehängten Richtlinie verfügt. Diese IAM-Rolle wird von Canvas übernommen, um serverlose EMR-Jobs zu erstellen.

      2. Wenn Sie bereits über eine Ausführungsrolle mit einer Vertrauensstellung für EMR Serverless verfügen, wählen Sie alternativ die Option Bestehende Ausführungsrolle verwenden und wählen Sie Ihre Rolle aus der Dropdownliste aus.

        • Die bestehende Rolle muss einen Namen haben, der mit dem Präfix beginnt. AmazonSageMakerCanvasEMRSExecutionAccess-

        • Die von Ihnen ausgewählte Rolle sollte außerdem mindestens über die in der AWS verwaltete Richtlinie: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy Richtlinie beschriebenen Berechtigungen verfügen.

        • Die Rolle sollte über eine serverlose EMR-Vertrauensrichtlinie verfügen, wie unten dargestellt:

          { "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "<your-account-id>" } } } ] }
  3. (Optional) Fügen Sie Amazon S3 S3-Berechtigungen für benutzerdefinierte Amazon S3 S3-Buckets hinzu:

    1. Die von Canvas verwaltete Richtlinie gewährt automatisch Lese- und Schreibberechtigungen für Amazon S3 S3-Buckets mit sagemaker oder SageMaker AI in deren Namen. Es gewährt auch Leseberechtigungen für Objekte in benutzerdefinierten Amazon S3 S3-Buckets mit dem Tag"SageMaker": "true".

    2. Für benutzerdefinierte Amazon S3 S3-Buckets ohne das erforderliche Tag fügen Sie Ihrer EMR-Serverless-Rolle die folgende Richtlinie hinzu:

    3. { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
    4. Wir empfehlen, die Berechtigungen auf bestimmte Amazon S3 S3-Buckets zu beschränken, auf die Canvas zugreifen soll.

  4. Speichern Sie Ihre Änderungen und starten Sie Ihre SageMaker Canvas-Anwendung neu.

Szenario 2: Benutzerdefiniertes Domain-Setup (mit öffentlichem Internetzugang/ohne VPC)

Wenn Sie eine benutzerdefinierte Domain erstellt haben oder verwenden, folgen Sie den Schritten 1—3 aus Szenario 1 und führen Sie dann die folgenden zusätzlichen Schritte aus:

  1. Fügen Sie Ihrer Amazon SageMaker AI-Ausführungsrolle Berechtigungen für den Amazon DescribeImages ECR-Vorgang hinzu, da Canvas öffentliche Amazon ECR-Docker-Images für die Datenvorbereitung und das Modelltraining verwendet:

    1. Melden Sie sich bei der AWS Konsole an und öffnen Sie die IAM-Konsole unter. https://console.aws.amazon.com/iam/

    2. Wählen Sie Roles.

    3. Suchen Sie im Suchfeld anhand des Namens nach Ihrer SageMaker AI-Ausführungsrolle und wählen Sie sie aus.

    4. Fügen Sie Ihrer SageMaker KI-Ausführungsrolle die folgende Richtlinie hinzu. Dies kann entweder geschehen, indem Sie sie als neue Inline-Richtlinie hinzufügen oder indem Sie die Richtlinienerklärung an eine bestehende Richtlinie anhängen. Beachten Sie, dass einer IAM-Rolle maximal 10 Richtlinien angehängt werden können.

      { "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
  2. Speichern Sie Ihre Änderungen und starten Sie Ihre SageMaker Canvas-Anwendung neu.

Szenario 3: Benutzerdefiniertes Domain-Setup (mit VPC und ohne öffentlichen Internetzugang)

Wenn Sie eine benutzerdefinierte Domain erstellt haben oder verwenden, befolgen Sie alle Schritte aus Szenario 2 und führen Sie dann die folgenden zusätzlichen Schritte aus:

  1. Stellen Sie sicher, dass Ihre VPC-Subnetze privat sind:

    1. Stellen Sie sicher, dass die Routing-Tabelle für Ihre Subnetze keinen Eintrag enthält0.0.0.0/0, der einem Internet Gateway zugeordnet ist.

  2. Fügen Sie Berechtigungen für die Erstellung von Netzwerkschnittstellen hinzu:

    1. Wenn Sie SageMaker Canvas mit EMR Serverless für die Datenverarbeitung in großem Umfang verwenden, benötigt EMR Serverless die Möglichkeit, Amazon zu erstellen, um die Netzwerkkommunikation zwischen EMR Serverless-Anwendungen und Ihren VPC-Ressourcen EC2 ENIs zu ermöglichen.

    2. Fügen Sie Ihrer Amazon SageMaker AI-Ausführungsrolle die folgende Richtlinie hinzu. Dies kann entweder geschehen, indem Sie sie als neue Inline-Richtlinie hinzufügen oder indem Sie die Richtlinienerklärung an eine bestehende Richtlinie anhängen. Beachten Sie, dass einer IAM-Rolle maximal 10 Richtlinien angehängt werden können.

      { "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
  3. (Optional) Beschränken Sie die ENI-Erstellung auf bestimmte Subnetze:

    1. Um Ihr Setup weiter zu sichern, indem Sie die Erstellung von Subnetzen innerhalb Ihrer VPC ENIs auf bestimmte Subnetze beschränken, können Sie jedes Subnetz mit bestimmten Bedingungen kennzeichnen.

    2. Verwenden Sie die folgende IAM-Richtlinie, um sicherzustellen, dass EMR-Serverless-Anwendungen Amazon nur EC2 ENIs innerhalb der zulässigen Subnetze und Sicherheitsgruppen erstellen können:

      { "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
  4. Folgen Sie den Schritten auf der SeiteAmazon SageMaker Canvas in einer VPC ohne Internetzugang konfigurieren, um den VPC-Endpunkt für Amazon S3 festzulegen, der für EMR Serverless und andere AWS Services, die von Canvas verwendet werden, erforderlich ist. SageMaker

  5. Speichern Sie Ihre Änderungen und starten Sie Ihre SageMaker Canvas-Anwendung neu.

Wenn Sie diese Schritte ausführen, können Sie die Verarbeitung großer Datenmengen in SageMaker Canvas für verschiedene Domain-Setups aktivieren, einschließlich solcher mit benutzerdefinierten VPC-Konfigurationen. Denken Sie daran, Ihre SageMaker Canvas-Anwendung neu zu starten, nachdem Sie diese Änderungen vorgenommen haben, um die neuen Berechtigungen zu übernehmen.