Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memanggil Titik Akhir Multi-Model
Untuk memanggil titik akhir multi-model, gunakan invoke_endpoint
TargetModel
parameter baru yang menentukan model mana di titik akhir yang akan ditargetkan. InvokeEndpoint
Permintaan SageMaker Runtime mendukung X-Amzn-SageMaker-Target-Model
sebagai header baru yang mengambil jalur relatif model yang ditentukan untuk pemanggilan. SageMaker Sistem membangun jalur absolut model dengan menggabungkan awalan yang disediakan sebagai bagian dari CreateModel
API panggilan dengan jalur relatif model.
Prosedur berikut adalah sama untuk kedua CPU dan GPU -backed multi-model endpoint.
Titik akhir multi-model secara dinamis memuat model target sesuai kebutuhan. Anda dapat mengamati ini saat menjalankan Notebook MME Sampel
catatan
Untuk instance yang GPU didukung, kode HTTP respons dengan 507 dari GPU wadah menunjukkan kurangnya memori atau sumber daya lainnya. Hal ini menyebabkan model yang tidak terpakai diturunkan dari wadah untuk memuat model yang lebih sering digunakan.
Coba lagi Permintaan pada Kesalahan ModelNotReadyException
Pertama kali Anda memanggil invoke_endpoint
model, model diunduh dari Amazon Simple Storage Service dan dimuat ke dalam wadah inferensi. Ini membuat panggilan pertama membutuhkan waktu lebih lama untuk kembali. Panggilan selanjutnya ke model yang sama selesai lebih cepat, karena model sudah dimuat.
SageMaker mengembalikan respons untuk panggilan invoke_endpoint
dalam waktu 60 detik. Beberapa model terlalu besar untuk diunduh dalam waktu 60 detik. Jika model tidak selesai memuat sebelum batas waktu 60 detik, permintaan untuk invoke_endpoint
kembali dengan kode kesalahanModelNotReadyException
, dan model terus mengunduh dan memuat ke dalam wadah inferensi hingga 360 detik. Jika Anda mendapatkan kode ModelNotReadyException
kesalahan untuk invoke_endpoint
permintaan, coba lagi permintaan tersebut. Secara default, AWS SDKs untuk Python (Boto 3) (menggunakan mode coba lagi Legacy) dan permintaan coba lagiinvoke_endpoint
ModelNotReadyException
Anda dapat mengonfigurasi strategi coba lagi untuk terus mencoba ulang permintaan hingga 360 detik. Jika Anda mengharapkan model Anda membutuhkan waktu lebih dari 60 detik untuk mengunduh dan memuat ke dalam wadah, atur batas waktu SDK soket menjadi 70 detik. Untuk informasi selengkapnya tentang mengonfigurasi strategi coba lagi AWS SDK for Python (Boto3), lihat Mengonfigurasiinvoke_endpoint
180 detik.
import boto3 from botocore.config import Config # This example retry strategy sets the retry attempts to 2. # With this setting, the request can attempt to download and/or load the model # for upto 180 seconds: 1 orginal request (60 seconds) + 2 retries (120 seconds) config = Config( read_timeout=70, retries={ 'max_attempts': 2 # This value can be adjusted to 5 to go up to the 360s max timeout } ) runtime_sagemaker_client = boto3.client('sagemaker-runtime', config=config)