Creación de una configuración de punto de conexión - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de una configuración de punto de conexión

Una vez creado el modelo, cree una configuración de punto de conexión. A continuación, puede implementar el modelo utilizando las especificaciones de la configuración de su punto de conexión. En la configuración, especifique si desea un punto de conexión en tiempo real o sin servidor. Para crear una configuración de punto final sin servidor, puede utilizar la SageMaker consola de Amazon CreateEndpointConfigAPI, la o la AWS CLI. Los enfoques API y los enfoques de consola se describen en las siguientes secciones.

Para crear una configuración de punto final (medianteAPI)

En el siguiente ejemplo, se utiliza AWS SDKpara Python (Boto3) para llamar a. CreateEndpointConfigAPI Especifique los siguientes valores:

  • En EndpointConfigName, seleccione un nombre para la configuración del punto de conexión. El nombre debe ser único dentro de su cuenta en una Región.

  • (Opcional) ParaKmsKeyId, utilice el identificador de clave, la claveARN, el nombre del alias o el alias ARN de la AWS KMS clave que desee utilizar. SageMaker utiliza esta clave para cifrar tu ECR imagen de Amazon.

  • En ModelName, utilice el nombre del modelo que quiera implementar. Debe ser el mismo modelo que haya utilizado en el paso Crear un modelo.

  • En ServerlessConfig:

    • Establezca MemorySizeInMB en 2048. En este ejemplo, hemos establecido el tamaño de la memoria en 2048 MB, pero puede elegir cualquiera de los siguientes valores para el tamaño de la memoria: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB.

    • Establezca MaxConcurrency en 20. Para este ejemplo, estableceremos la simultaneidad máxima en 20. El número máximo de invocaciones simultáneas que puede establecer para un punto de conexión sin servidor es 200 y el valor mínimo que puede elegir es 1.

    • (Opcional) Para usar la simultaneidad aprovisionada, establezca ProvisionedConcurrency en 10. Para este ejemplo, estableceremos la simultaneidad aprovisionada en 10. El número ProvisionedConcurrency de un punto de conexión sin servidor debe ser inferior o igual al número MaxConcurrency. Puede dejarlo vacío si quiere utilizar un punto de conexión de inferencia sin servidor bajo demanda. Puede escalar de forma dinámica la simultaneidad de aprovisionamiento. Para obtener más información, consulte Escalar automáticamente la simultaneidad aprovisionada para un punto de conexión sin servidor.

response = client.create_endpoint_config( EndpointConfigName="<your-endpoint-configuration>", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )

Crear una configuración de punto de conexión (usando la consola)

  1. Inicia sesión en la SageMakerconsola de Amazon.

  2. En la pestaña de navegación, seleccione Inferencia.

  3. A continuación, seleccione las configuraciones de punto de conexión.

  4. Seleccione Crear configuración de punto de conexión.

  5. En el nombre de la configuración del punto de conexión, introduzca un nombre único dentro de su cuenta en una región.

  6. En Tipo de punto de conexión, seleccione Sin rervidor.

    Captura de pantalla de la opción del tipo de punto de conexión en la consola.
  7. En las variantes de producción, seleccione Añadir modelo.

  8. En Añadir modelo, seleccione el modelo que quiera usar de la lista de modelos y, a continuación, seleccione Guardar.

  9. Tras añadir el modelo, en Acciones, seleccione Editar.

  10. En Tamaño de memoria, seleccione el tamaño de memoria que quiera en GB.

    Captura de pantalla de la opción de tamaño de memoria en la consola.
  11. En Simultaneidad máxima, introduzca el número máximo de invocaciones simultáneas que quiera para el punto de conexión. El valor máximo que puede introducir es 200 y el mínimo es 1.

  12. (Opcional) Para usar la simultaneidad aprovisionada, introduzca el número deseado de invocaciones simultáneas en el campo de configuración de simultaneidad aprovisionada. El número de invocaciones simultáneas aprovisionadas debe ser menor o igual que el número máximo de invocaciones simultáneas.

  13. Seleccione Guardar.

  14. (Opcional) En Etiquetas, introduzca pares clave-valor si quiere crear metadatos para la configuración de punto de conexión.

  15. Seleccione Crear configuración de punto de conexión.