Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker parametri di endpoint per l'inferenza di modelli di grandi dimensioni
Puoi personalizzare i seguenti parametri per facilitare l'inferenza di modelli di grandi dimensioni (LMI) a bassa latenza con: SageMaker
-
Dimensione massima del volume Amazon EBS sull'istanza (
VolumeSizeInGB
): se la dimensione del modello è superiore a 30 GB e stai utilizzando un'istanza senza un disco locale, devi aumentare questo parametro in modo che sia leggermente superiore alla dimensione del tuo modello. -
Quota di timeout per il controllo dello stato di salute (
ContainerStartupHealthCheckTimeoutInSeconds
): se il contenitore è configurato correttamente e CloudWatch i registri indicano un timeout per il controllo dello stato di salute, è necessario aumentare questa quota in modo che il contenitore abbia abbastanza tempo per rispondere ai controlli di integrità. -
Quota di timeout per il download del modello (
ModelDataDownloadTimeoutInSeconds
): se la dimensione del modello è superiore a 40 GB, devi aumentare questa quota per avere tempo sufficiente per scaricare il modello da Amazon S3 sull'istanza.
Il seguente frammento di codice mostra come configurare in modo programmatico i parametri sopra menzionati. Sostituisci il testo segnaposto in corsivo
nell’esempio con le tue informazioni.
import boto3 aws_region = "
aws-region
" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name
" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name
" # The name of the model that you want to host. model_name = "the-name-of-your-model
" instance_type = "instance-type
" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1
", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount":1
, # Number of instances to launch initially. "VolumeSizeInGB":256
, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds":1800
, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds":1800
, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
Per ulteriori informazioni sui tasti perProductionVariants
, vedere. ProductionVariant
Per esempi che dimostrano come ottenere un'inferenza a bassa latenza con modelli di grandi dimensioni, consulta Esempi di inferenza AI generativa su Amazon SageMaker