Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Setelah menyempurnakan model bahasa besar (LLM), Anda dapat menerapkan model untuk pembuatan teks waktu nyata dengan menyiapkan titik akhir untuk mendapatkan prediksi interaktif.
catatan
Kami merekomendasikan menjalankan pekerjaan inferensi waktu nyata ml.g5.12xlarge
untuk kinerja yang lebih baik. Atau, ml.g5.8xlarge
instance cocok untuk tugas pembuatan teks Falcon-7B-Instruct dan MPT-7B-Instruct.
Anda dapat menemukan spesifikasi instans ini dalam kategori Accelerated Computing
Pembuatan teks waktu nyata
Anda dapat menggunakan SageMaker APIs untuk menerapkan model fine-tuned Anda secara manual ke titik akhir inferensi real-time Hosting SageMaker AI Hosting, lalu mulai membuat prediksi dengan memanggil titik akhir sebagai berikut.
catatan
Atau, Anda dapat memilih opsi penerapan otomatis saat membuat eksperimen fine-tuning Anda di Autopilot. Untuk informasi tentang pengaturan penerapan otomatis model, lihatCara mengaktifkan penyebaran otomatis.
Anda juga dapat menggunakan SageMaker Python SDK dan JumpStartModel
kelas untuk melakukan inferensi dengan model yang disetel dengan baik oleh Autopilot. Ini dapat dilakukan dengan menentukan lokasi khusus untuk artefak model di Amazon S3. Untuk informasi tentang mendefinisikan model Anda sebagai model dan menerapkan JumpStart model Anda untuk inferensi, lihat Penerapan kode rendah
-
Dapatkan definisi wadah inferensi kandidat
Anda dapat menemukan bagian
InferenceContainerDefinitions
dalamBestCandidate
objek yang diambil dari respons terhadap panggilan API DescribeAutoMLJobV2. Definisi kontainer untuk inferensi mengacu pada lingkungan kontainer yang dirancang untuk menerapkan dan menjalankan model terlatih Anda untuk membuat prediksi.Contoh AWS CLI perintah berikut menggunakan DescribeAutoMLJobV2 API untuk mendapatkan definisi kontainer yang direkomendasikan untuk nama pekerjaan Anda.
aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name
job-name
--regionregion
-
Buat model SageMaker AI
Gunakan definisi container dari langkah sebelumnya untuk membuat model SageMaker AI dengan menggunakan CreateModelAPI. Lihat AWS CLI perintah berikut sebagai contoh. Gunakan
CandidateName
untuk nama model Anda.aws sagemaker create-model --model-name '
<your-candidate-name>
' \ --primary-container '<container-definition
' \ --execution-role-arn '<execution-role-arn>
' --region '<region>
-
Buat konfigurasi titik akhir
Contoh AWS CLI perintah berikut menggunakan CreateEndpointConfigAPI untuk membuat konfigurasi endpoint.
catatan
Untuk mencegah pembuatan titik akhir dari kehabisan waktu karena unduhan model yang panjang, kami sarankan pengaturan
ModelDataDownloadTimeoutInSeconds = 3600
dan.ContainerStartupHealthCheckTimeoutInSeconds = 3600
aws sagemaker create-endpoint-config --endpoint-config-name '
<your-endpoint-config-name>
' \ --production-variants '<list-of-production-variants>
' ModelDataDownloadTimeoutInSeconds=3600 ContainerStartupHealthCheckTimeoutInSeconds=3600 \ --region '<region>
' -
Buat titik akhir
AWS CLI Contoh berikut menggunakan CreateEndpointAPI untuk membuat titik akhir.
aws sagemaker create-endpoint --endpoint-name '
<your-endpoint-name>
' \ --endpoint-config-name '<endpoint-config-name-you-just-created>
' \ --region '<region>
'Periksa kemajuan penerapan titik akhir Anda dengan menggunakan API. DescribeEndpoint Lihat AWS CLI perintah berikut sebagai contoh.
aws sagemaker describe-endpoint —endpoint-name '
<endpoint-name>
' —region<region>
Setelah
EndpointStatus
perubahanInService
, titik akhir siap digunakan untuk inferensi waktu nyata. -
Memanggil titik akhir
Perintah berikut memanggil titik akhir untuk inferensi real-time. Prompt Anda perlu dikodekan dalam byte.
catatan
Format prompt input Anda tergantung pada model bahasa. Untuk informasi selengkapnya tentang format prompt pembuatan teks, lihatFormat permintaan untuk model pembuatan teks inferensi waktu nyata.
aws sagemaker invoke-endpoint --endpoint-name '
<endpoint-name>
' \ --region '<region>
' --body '<your-promt-in-bytes>
' [--content-type] 'application/json'<outfile>
Format permintaan untuk model pembuatan teks inferensi waktu nyata
Model bahasa besar yang berbeda (LLMs) mungkin memiliki dependensi perangkat lunak tertentu, lingkungan runtime, dan persyaratan perangkat keras yang memengaruhi wadah yang direkomendasikan Autopilot untuk meng-host model untuk inferensi. Selain itu, setiap model menentukan format data input yang diperlukan dan format yang diharapkan untuk prediksi dan output.
Berikut adalah contoh input untuk beberapa model dan wadah yang direkomendasikan.
-
Untuk model Falcon dengan wadah
huggingface-pytorch-tgi-inference:2.0.1-tgi1.0.3-gpu-py39-cu118-ubuntu20.04
yang direkomendasikan:payload = { "inputs": "Large language model fine-tuning is defined as", "parameters": { "do_sample": false, "top_p": 0.9, "temperature": 0.1, "max_new_tokens": 128, "stop": ["<|endoftext|>", "</s>"] } }
-
Untuk semua model lain dengan wadah yang direkomendasikan
djl-inference:0.22.1-fastertransformer5.3.0-cu118
:payload= { "text_inputs": "Large language model fine-tuning is defined as" }