Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Concesión de permisos a los usuarios para usar datos de gran tamaño durante todo el ciclo de vida de ML
Los usuarios de Amazon SageMaker Canvas que trabajan con conjuntos de datos de más de 10 GB en formato CSV o 2,5 GB en formato Parquet necesitan permisos específicos para el procesamiento de datos de gran tamaño. Estos permisos son esenciales para administrar datos a gran escala durante todo el ciclo de vida de machine learning. Cuando los conjuntos de datos superan los umbrales establecidos o la capacidad de memoria local de la aplicación, SageMaker Canvas utiliza Amazon EMR Serverless para un procesamiento eficiente. Esto se aplica a:
-
Importación de datos: importación de conjuntos de datos grandes con muestreo aleatorio o estratificado.
-
Preparación de datos: exportación de datos procesados desde Data Wrangler en Canvas a Amazon S3, a un nuevo conjunto de datos de Canvas o a un modelo de Canvas.
-
Creación de modelos: entrenamiento de modelos con grandes conjuntos de datos.
-
Inferencia: realización de predicciones sobre grandes conjuntos de datos.
De forma predeterminada, SageMaker Canvas usa EMR Serverless para ejecutar estos trabajos remotos con la siguiente configuración de la aplicación:
-
Capacidad preinicializada: no configurada
-
Límites de aplicación: capacidad máxima de 400 VCPUs, capacidad máxima simultánea de 16 V CPUs por cuenta, 3000 GB de memoria y 20000 GB de disco
-
Configuración de Metastore: AWS Glue Data Catalog
-
Registros de aplicaciones: almacenamiento AWS gestionado (habilitado), mediante una clave AWS de cifrado propia
-
Comportamiento de la aplicación: se inicia automáticamente al enviar el trabajo y se detiene automáticamente cuando la aplicación está inactiva durante 15 minutos
Para habilitar estas capacidades de procesamiento de datos de gran tamaño, los usuarios necesitan los permisos necesarios, que se pueden conceder a través de la configuración del dominio de Amazon SageMaker AI. El método para conceder estos permisos depende de cómo se configuró inicialmente tu dominio de Amazon SageMaker AI. Abordaremos tres escenarios principales:
-
Configuración rápida de dominio
-
Configuración personalizada de dominio (con acceso público a Internet/sin VPC)
-
Configuración personalizada de dominio (con VPC y sin acceso público a Internet)
Cada escenario requiere pasos específicos para garantizar que los usuarios tengan los permisos necesarios para aprovechar EMR Serverless para el procesamiento de datos de gran tamaño durante todo el ciclo de vida del aprendizaje automático en Canvas. SageMaker
Escenario 1: configuración rápida de dominio
Si utilizó la opción de configuración rápida al crear su dominio de SageMaker IA, siga estos pasos:
-
Navega hasta la configuración del dominio de Amazon SageMaker AI:
-
Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/
. -
En el panel de navegación izquierdo, seleccione Dominios.
-
Seleccione su dominio.
-
Elija la pestaña Configuraciones de aplicaciones.
-
Desplácese hacia abajo hasta la sección Canvas y elija Editar.
-
-
Habilite el procesamiento de datos de gran tamaño:
-
En la sección Configuración de procesamiento de datos de gran tamaño, active Habilitar EMR sin servidor para el procesamiento de datos de gran tamaño.
-
Cree o seleccione un rol de EMR sin servidor:
-
Elija Crear y usar un rol de ejecución nuevo para crear un nuevo rol de IAM que tenga una relación de confianza con EMR sin servidor y la política AWS política gestionada: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy asociada. Canvas asume este rol de IAM para crear trabajos de EMR sin servidor.
-
Como alternativa, si ya tiene un rol de ejecución con una relación de confianza para EMR sin servidor, seleccione Usar un rol de ejecución existente y elija un rol en el menú desplegable.
-
El rol existente debe tener un nombre que comience por el prefijo
AmazonSageMakerCanvasEMRSExecutionAccess-
. -
El rol que seleccione también debe tener al menos los permisos descritos en la política AWS política gestionada: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy.
-
El rol debe tener una política de confianza de EMR sin servidor, como se muestra a continuación:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
<your-account-id>
" } } } ] }
-
-
-
-
(Opcional) Añada permisos de Amazon S3 para buckets de Amazon S3 personalizados:
-
La política administrada de Canvas concede automáticamente permisos de lectura y escritura para los buckets de Amazon S3 con
sagemaker
oSageMaker AI
en su nombre. También concede permisos de lectura para los objetos de los buckets personalizados de Amazon S3 con la etiqueta"SageMaker": "true"
. -
Para los buckets de Amazon S3 personalizados sin la etiqueta requerida, añada la siguiente política a su rol de EMR sin servidor:
-
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
-
Le recomendamos que restrinja los permisos a buckets de Amazon S3 específicos a los que desea que acceda Canvas.
-
-
Guarde los cambios y reinicie la aplicación SageMaker Canvas.
Escenario 2: configuración personalizada de dominio (con acceso público a Internet/sin VPC)
Si ha creado o utiliza un dominio personalizado, siga los pasos 1 a 3 del escenario 1 y, a continuación, siga estos pasos adicionales:
-
Añada permisos para la
DescribeImages
operación de Amazon ECR a su función de ejecución de Amazon SageMaker AI, ya que Canvas utiliza imágenes públicas de Docker de Amazon ECR para la preparación de datos y el entrenamiento de modelos:-
Inicie sesión en la AWS consola y abra la consola de IAM en. https://console.aws.amazon.com/iam/
-
Elija Roles.
-
En el cuadro de búsqueda, busque su función de ejecución de SageMaker IA por nombre y selecciónela.
-
Añada la siguiente política a su función de ejecución de SageMaker IA. Esto se puede hacer añadiéndola como nueva política en línea o añadiendo la declaración de política a una ya existente. Tenga en cuenta que un rol de IAM puede tener un máximo de 10 políticas asociadas.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
-
-
Guarde los cambios y reinicie la aplicación SageMaker Canvas.
Escenario 3: configuración personalizada de dominio (con VPC y sin acceso público a Internet)
Si ha creado o utiliza un dominio personalizado, siga todos los pasos del escenario 2 y, a continuación, siga estos pasos adicionales:
-
Asegúrese de que las subredes de VPC sean privadas:
-
Compruebe que la tabla de enrutamiento de las subredes no tenga una asignación de entrada
0.0.0.0/0
a una puerta de enlace de Internet.
-
-
Agregue permisos para crear interfaces de red:
-
Al utilizar SageMaker Canvas con EMR Serverless para el procesamiento de datos a gran escala, EMR Serverless requiere la capacidad de crear Amazon para EC2 ENIs permitir la comunicación de red entre las aplicaciones EMR Serverless y sus recursos de VPC.
-
Añada la siguiente política a su función de ejecución de Amazon SageMaker AI. Esto se puede hacer añadiéndola como nueva política en línea o añadiendo la declaración de política a una ya existente. Tenga en cuenta que un rol de IAM puede tener un máximo de 10 políticas asociadas.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
-
-
(Opcional) Limite la creación de ENI a subredes específicas:
-
Para proteger aún más la configuración restringiendo la creación de ENIs determinadas subredes dentro de la VPC, puede etiquetar cada subred con condiciones específicas.
-
Utilice la siguiente política de IAM para garantizar que las aplicaciones EMR Serverless solo puedan crear EC2 ENIs Amazon dentro de las subredes y grupos de seguridad permitidos:
{ "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
-
-
Siga los pasos de la página Configurar Amazon SageMaker Canvas en una VPC sin acceso a Internet para configurar el punto de enlace de VPC para Amazon S3, que requieren EMR Serverless y otros AWS servicios que utiliza Canvas. SageMaker
-
Guarde los cambios y reinicie la aplicación de Canvas SageMaker .
Si sigue estos pasos, puede habilitar el procesamiento de datos de gran tamaño en SageMaker Canvas para varias configuraciones de dominio, incluidas aquellas con configuraciones de VPC personalizadas. Recuerde reiniciar la aplicación SageMaker Canvas después de realizar estos cambios para aplicar los nuevos permisos.