Conceder acceso a los trabajos de compilación de Amazon SageMaker Clarify a los recursos de su Amazon VPC - Amazon SageMaker

Conceder acceso a los trabajos de compilación de Amazon SageMaker Clarify a los recursos de su Amazon VPC

Para controlar el acceso a sus datos y trabajos de SageMaker Clarify, se recomienda crear una Amazon VPC privada y configurarla de manera que no se pueda obtener acceso a sus trabajos a través de Internet. Para obtener información sobre cómo crear y configurar una Amazon VPC para trabajos de procesamiento, consulte Conceder acceso a los trabajos de procesamiento de SageMaker a los recursos de su Amazon VPC.

Este documento explica cómo a agregar configuraciones de Amazon VPC adicionales que cumplan los requisitos de los trabajos de SageMaker Clarify.

Configurar un trabajo de SageMaker Clarify para el acceso a Amazon VPC

Debe especificar las subredes y los grupos de seguridad al configurar su Amazon VPC privada para los trabajos de SageMaker Clarify y permitir que el trabajo obtenga inferencias del modelo de SageMaker al calcular las métricas de sesgo posteriores al entrenamiento y las contribuciones de características que ayudan a explicar las predicciones del modelo.

Grupos de seguridad y subredes de Amazon VPC de trabajos de SageMaker Clarify

Las subredes y los grupos de seguridad de su Amazon VPC privada se pueden asignar a un trabajo de SageMaker Clarify de varias maneras, en función de cómo cree el trabajo.

  • Consola de SageMaker: proporcione esta información cuando cree el trabajo en el Panel de SageMaker. En el menú Procesamiento, seleccione Trabajos de procesamiento y, a continuación, elija Crear trabajo de procesamiento. Seleccione la opción VPC en el panel Red y proporcione las subredes y los grupos de seguridad mediante las listas desplegables. Asegúrese de que la opción de aislamiento de redes incluida en este panel esté desactivada.

  • API de SageMaker: utilice el parámetro de solicitud NetworkConfig.VpcConfig de la API CreateProcessingJob, como se muestra en el siguiente ejemplo:

    "NetworkConfig": { "VpcConfig": { "Subnets": [ "subnet-0123456789abcdef0", "subnet-0123456789abcdef1", "subnet-0123456789abcdef2" ], "SecurityGroupIds": [ "sg-0123456789abcdef0" ] } }
  • SageMaker Python SDK: utilice el parámetro NetworkConfig de la API SageMakerClarifyProcessor o la API Processor, como se muestra en el siguiente ejemplo:

    from sagemaker.network import NetworkConfig network_config = NetworkConfig( subnets=[ "subnet-0123456789abcdef0", "subnet-0123456789abcdef1", "subnet-0123456789abcdef2", ], security_group_ids=[ "sg-0123456789abcdef0", ], )

SageMaker utiliza la información para crear interfaces de red y asociarlas al trabajo de SageMaker Clarify. Las interfaces de red proporcionan a un trabajo de SageMaker Clarify una conexión de red dentro de su Amazon VPC que no está conectada a la red de Internet pública. También permiten que el trabajo de SageMaker Clarify se conecte a los recursos de su Amazon VPC privada.

nota

La opción de aislamiento de redes del trabajo de SageMaker Clarify debe estar desactivada (de forma predeterminada, la opción está desactivada) para que el trabajo de SageMaker Clarify pueda comunicarse con el punto de conexión de sombra.

Configurar un modelo para el acceso a Amazon VPC

Para calcular las métricas de sesgo y la explicabilidad posteriores al entrenamiento, el trabajo de SageMaker Clarify necesita obtener inferencias del modelo de SageMaker que se especifica mediante el parámetro model_name de la configuración de análisis para el trabajo de procesamiento de SageMaker Clarify. Como alternativa, si utiliza la API SageMakerClarifyProcessor del SageMaker Python SDK, el trabajo debe obtener el model_name especificado por la clase ModelConfig. Para ello, el trabajo de SageMaker Clarify crea un punto de conexión efímero con el modelo, conocido como punto de conexión de sombra, y, a continuación, aplica la configuración de Amazon VPC del modelo al punto de conexión de sombra.

Para especificar subredes y grupos de seguridad en su Amazon VPC privada para el modelo de SageMaker, utilice el parámetro de solicitud VpcConfig de la API CreateModel o proporcione esta información cuando cree un modelo en la consola de SageMaker. A continuación se muestra un ejemplo del parámetro VpcConfig incluido en su llamada a CreateModel:

"VpcConfig": { "Subnets": [ "subnet-0123456789abcdef0", "subnet-0123456789abcdef1", "subnet-0123456789abcdef2" ], "SecurityGroupIds": [ "sg-0123456789abcdef0" ] }

Puede especificar el número de instancias del punto de conexión de sombra que se van a lanzar con el parámetro initial_instance_count de la configuración de análisis para el trabajo de procesamiento de SageMaker Clarify. Como alternativa, si utiliza la SageMakerClarifyProcessor API del SageMaker Python SDK, el trabajo debe obtener el instance_count especificado por la clase ModelConfig.

nota

Aunque solo solicite una instancia al crear el punto de conexión de sombra, necesitará al menos dos subredes en el ModelConfig del modelo en distintas zonas de disponibilidad. De lo contrario, la creación de punto de conexión de sobra produce el siguiente error:

ClientError: Error hosting endpoint sagemaker-clarify-endpoint-XXX: Failed. Reason: Unable to locate at least 2 availability zone(s) with the requested instance type YYY that overlap with SageMaker subnets.

Si su modelo requiere archivos de modelo en Amazon S3, entonces el modelo de Amazon VPC debe tener un punto de conexión de VPC de Amazon S3. Para obtener más información acerca de la creación y configuración de una Amazon VPC para modelos de SageMaker, consulte Conceder acceso a los punto de conexión alojados de SageMaker a los recursos de su Amazon VPC.

Configurar su Amazon VPC privada para trabajos de SageMaker Clarify

En general, puede seguir los pasos de Configurar la VPC privada para el procesamiento de SageMaker para configurar su Amazon VPC privada para los trabajos de SageMaker Clarify. Estos son algunos aspectos destacados y requisitos especiales para los trabajos de SageMaker Clarify.

Conexión a recursos fuera de su Amazon VPC

Si configura su Amazon VPC para que no tenga acceso a la red de Internet pública, necesitará alguna configuración adicional para permitir que los trabajos de SageMaker Clarify accedan a recursos y servicios externos a su Amazon VPC. Por ejemplo, se necesita un punto de conexión de VPC de Amazon S3 porque un trabajo de SageMaker Clarify necesita cargar un conjunto de datos desde un bucket de S3 y guardar los resultados del análisis en un bucket de S3. Para obtener más información, consulte Crear un punto de conexión de VPC de Amazon S3 para obtener las pautas de creación. Además, si un trabajo de SageMaker Clarify necesita obtener inferencias del punto de conexión de sombra, tendrá que llamar a varios servicios más de AWS.

  • Crear un punto de conexión de VPC del servicio de API de Amazon SageMaker: el trabajo de SageMaker Clarify debe llamar al servicio de API de Amazon SageMaker para manipular el punto de conexión de sombra para describir un modelo de SageMaker para la validación de Amazon VPC. Puede seguir las instrucciones que se proporcionan en el blog Securing all Amazon SageMaker API calls with AWS PrivateLink para crear un punto de conexión de VPC de la API de Amazon SageMaker que permita al trabajo de SageMaker Clarify realizar las llamadas al servicio. Tenga en cuenta que el nombre del servicio de la API de Amazon SageMaker es com.amazonaws.region.sagemaker.api, donde region es el nombre de la región en la que reside su Amazon VPC.

  • Crear un punto de conexión de VPC de tiempo de ejecución de Amazon SageMaker: el trabajo de SageMaker Clarify debe llamar al servicio de tiempo de ejecución de Amazon SageMaker, que enruta las invocaciones al punto de conexión de sombra. Los pasos de configuración son similares a los del servicio de la API de Amazon SageMaker. Tenga en cuenta que el nombre del servicio del tiempo de ejecución de Amazon SageMaker es com.amazonaws.region.sagemaker.runtime, donde region es el nombre de la región en la que reside su Amazon VPC.

Configurar el grupo de seguridad de su Amazon VPC

Los trabajos de SageMaker Clarify admiten el procesamiento distribuido cuando se especifican dos o más instancias de procesamiento de una de las siguientes maneras:

  • Consola de SageMaker: el recuento de instancias se especifica en la parte Configuración de recursos del panel Configuración del trabajo de la página Crear trabajo de procesamiento.

  • API de SageMaker: el InstanceCount se especifica al crear el trabajo con la API CreateProcessingJob.

  • SageMaker Python SDK: el instance_count se especifica cuando se utiliza la API SageMakerClarifyProcessor o la API Processor.

En el procesamiento distribuido, debe permitir la comunicación entre distintas instancias en el mismo trabajo de procesamiento. Para ello, configure una regla para el grupo de seguridad que permita conexiones entrantes entre miembros del mismo grupo de seguridad. Para obtener información, consulte Reglas del grupo de seguridad.