SageMaker Parameter titik akhir AI untuk inferensi model besar

Anda dapat menyesuaikan parameter berikut untuk memfasilitasi inferensi model besar latensi rendah (LMI) dengan AI: SageMaker

Ukuran volume Amazon EBS maksimum pada instance (VolumeSizeInGB) — Jika ukuran model lebih besar dari 30 GB dan Anda menggunakan instance tanpa disk lokal, Anda harus meningkatkan parameter ini menjadi sedikit lebih besar dari ukuran model Anda.
Kuota batas waktu pemeriksaan Kesehatan (ContainerStartupHealthCheckTimeoutInSeconds) — Jika wadah Anda diatur dengan benar dan CloudWatch log menunjukkan batas waktu pemeriksaan kesehatan, Anda harus menambah kuota ini sehingga wadah memiliki cukup waktu untuk menanggapi pemeriksaan kesehatan.
Kuota batas waktu unduhan model (ModelDataDownloadTimeoutInSeconds) — Jika ukuran model Anda lebih besar dari 40 GB, maka Anda harus menambah kuota ini untuk memberikan waktu yang cukup untuk mengunduh model dari Amazon S3 ke instans.

Cuplikan kode berikut menunjukkan cara mengkonfigurasi parameter yang disebutkan di atas secara terprogram. Ganti contoh italicized placeholder text dalam dengan informasi Anda sendiri.


import boto3

aws_region = "aws-region"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "endpoint-name"

# Create an endpoint config name.
endpoint_config_name = "endpoint-config-name"

# The name of the model that you want to host.
model_name = "the-name-of-your-model"

instance_type = "instance-type"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "variant1", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": 1, # Number of instances to launch initially.
            "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Untuk informasi selengkapnya tentang kunciProductionVariants, lihat ProductionVariant.

Untuk contoh yang menunjukkan cara mencapai inferensi latensi rendah dengan model besar, lihat Contoh Inferensi AI Generatif di Amazon SageMaker AI di repositori aws-samples. GitHub

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Dokumentasi kontainer LMI

Menyebarkan model yang tidak terkompresi