Penyebaran dan prediksi model autopilot

Mode fokus

Penyebaran dan prediksi model autopilot - Amazon SageMaker AI

Pembuatan teks waktu nyata Format permintaan untuk inferensi waktu nyata

Setelah menyempurnakan model bahasa besar (LLM), Anda dapat menerapkan model untuk pembuatan teks waktu nyata dengan menyiapkan titik akhir untuk mendapatkan prediksi interaktif.

catatan

Kami merekomendasikan menjalankan pekerjaan inferensi waktu nyata ml.g5.12xlarge untuk kinerja yang lebih baik. Atau, ml.g5.8xlarge instance cocok untuk tugas pembuatan teks Falcon-7B-Instruct dan MPT-7B-Instruct.

Anda dapat menemukan spesifikasi instans ini dalam kategori Accelerated Computing dalam pemilihan jenis instans yang disediakan oleh Amazon. EC2

Pembuatan teks waktu nyata

Anda dapat menggunakan SageMaker APIs untuk menerapkan model fine-tuned Anda secara manual ke titik akhir inferensi real-time Hosting SageMaker AI Hosting, lalu mulai membuat prediksi dengan memanggil titik akhir sebagai berikut.

catatan

Atau, Anda dapat memilih opsi penerapan otomatis saat membuat eksperimen fine-tuning Anda di Autopilot. Untuk informasi tentang pengaturan penerapan otomatis model, lihatCara mengaktifkan penyebaran otomatis.

Anda juga dapat menggunakan SageMaker Python SDK dan JumpStartModel kelas untuk melakukan inferensi dengan model yang disetel dengan baik oleh Autopilot. Ini dapat dilakukan dengan menentukan lokasi khusus untuk artefak model di Amazon S3. Untuk informasi tentang mendefinisikan model Anda sebagai model dan menerapkan JumpStart model Anda untuk inferensi, lihat Penerapan kode rendah dengan kelas. JumpStartModel

Dapatkan definisi wadah inferensi kandidat

Anda dapat menemukan bagian InferenceContainerDefinitions dalam BestCandidate objek yang diambil dari respons terhadap panggilan API DescribeAutoMLJobV2. Definisi kontainer untuk inferensi mengacu pada lingkungan kontainer yang dirancang untuk menerapkan dan menjalankan model terlatih Anda untuk membuat prediksi.

Contoh AWS CLI perintah berikut menggunakan DescribeAutoMLJobV2 API untuk mendapatkan definisi kontainer yang direkomendasikan untuk nama pekerjaan Anda.
```
aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
```
Buat model SageMaker AI

Gunakan definisi container dari langkah sebelumnya untuk membuat model SageMaker AI dengan menggunakan CreateModelAPI. Lihat AWS CLI perintah berikut sebagai contoh. Gunakan CandidateName untuk nama model Anda.
```
aws sagemaker create-model --model-name '<your-candidate-name>' \
                    --primary-container '<container-definition' \
                    --execution-role-arn '<execution-role-arn>' --region '<region>
```
Buat konfigurasi titik akhir

Contoh AWS CLI perintah berikut menggunakan CreateEndpointConfigAPI untuk membuat konfigurasi endpoint.

catatan
Untuk mencegah pembuatan titik akhir dari kehabisan waktu karena unduhan model yang panjang, kami sarankan pengaturan ModelDataDownloadTimeoutInSeconds = 3600 dan. ContainerStartupHealthCheckTimeoutInSeconds = 3600
```
aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \
                    --production-variants '<list-of-production-variants>' ModelDataDownloadTimeoutInSeconds=3600 ContainerStartupHealthCheckTimeoutInSeconds=3600 \
                    --region '<region>'
```
Buat titik akhir

AWS CLI Contoh berikut menggunakan CreateEndpointAPI untuk membuat titik akhir.
```
aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \
                    --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                    --region '<region>'
```
Periksa kemajuan penerapan titik akhir Anda dengan menggunakan API. DescribeEndpoint Lihat AWS CLI perintah berikut sebagai contoh.
```
aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
```
Setelah EndpointStatus perubahanInService, titik akhir siap digunakan untuk inferensi waktu nyata.
Memanggil titik akhir

Perintah berikut memanggil titik akhir untuk inferensi real-time. Prompt Anda perlu dikodekan dalam byte.

catatan
Format prompt input Anda tergantung pada model bahasa. Untuk informasi selengkapnya tentang format prompt pembuatan teks, lihatFormat permintaan untuk model pembuatan teks inferensi waktu nyata.
```
aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                  --region '<region>' --body '<your-promt-in-bytes>' [--content-type] 'application/json' <outfile>
```

Format permintaan untuk model pembuatan teks inferensi waktu nyata

Model bahasa besar yang berbeda (LLMs) mungkin memiliki dependensi perangkat lunak tertentu, lingkungan runtime, dan persyaratan perangkat keras yang memengaruhi wadah yang direkomendasikan Autopilot untuk meng-host model untuk inferensi. Selain itu, setiap model menentukan format data input yang diperlukan dan format yang diharapkan untuk prediksi dan output.

Berikut adalah contoh input untuk beberapa model dan wadah yang direkomendasikan.

Untuk model Falcon dengan wadah huggingface-pytorch-tgi-inference:2.0.1-tgi1.0.3-gpu-py39-cu118-ubuntu20.04 yang direkomendasikan:


payload = {
    "inputs": "Large language model fine-tuning is defined as",
    "parameters": {
        "do_sample": false,
        "top_p": 0.9,
        "temperature": 0.1,
        "max_new_tokens": 128,
        "stop": ["<|endoftext|>", "</s>"]
    }
}

Untuk semua model lain dengan wadah yang direkomendasikandjl-inference:0.22.1-fastertransformer5.3.0-cu118:
```
payload= {
    "text_inputs": "Large language model fine-tuning is defined as"
}
```

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Metrik

Membuat Pekerjaan Regresi atau Klasifikasi Menggunakan UI Studio Classic

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Penyebaran dan prediksi model autopilot

catatan

Pembuatan teks waktu nyata

catatan

catatan

catatan

Format permintaan untuk model pembuatan teks inferensi waktu nyata

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?