SageMaker parameter titik akhir untuk inferensi model besar - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker parameter titik akhir untuk inferensi model besar

Anda dapat menyesuaikan parameter berikut untuk memfasilitasi inferensi model besar latensi rendah (LMI) dengan: SageMaker

  • Ukuran volume Amazon EBS maksimum pada instance (VolumeSizeInGB) — Jika ukuran model lebih besar dari 30 GB dan Anda menggunakan instance tanpa disk lokal, Anda harus meningkatkan parameter ini menjadi sedikit lebih besar dari ukuran model Anda.

  • Kuota batas waktu pemeriksaan Kesehatan (ContainerStartupHealthCheckTimeoutInSeconds) — Jika wadah Anda diatur dengan benar dan CloudWatch log menunjukkan batas waktu pemeriksaan kesehatan, Anda harus menambah kuota ini sehingga wadah memiliki cukup waktu untuk menanggapi pemeriksaan kesehatan.

  • Kuota batas waktu unduhan model (ModelDataDownloadTimeoutInSeconds) — Jika ukuran model Anda lebih besar dari 40 GB, maka Anda harus menambah kuota ini untuk memberikan waktu yang cukup untuk mengunduh model dari Amazon S3 ke instans.

Cuplikan kode berikut menunjukkan cara mengkonfigurasi parameter yang disebutkan di atas secara terprogram. Ganti teks placeholder yang dicetak miring dalam contoh dengan informasi Anda sendiri.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Untuk informasi selengkapnya tentang kunciProductionVariants, lihat ProductionVariant.

Untuk contoh yang menunjukkan cara mencapai inferensi latensi rendah dengan model besar, lihat Contoh Inferensi AI Generatif di Amazon SageMaker di repositori aws-samples. GitHub