Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Penyebaran dan prediksi model autopilot

Mode fokus
Penyebaran dan prediksi model autopilot - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Setelah menyempurnakan model bahasa besar (LLM), Anda dapat menerapkan model untuk pembuatan teks waktu nyata dengan menyiapkan titik akhir untuk mendapatkan prediksi interaktif.

catatan

Kami merekomendasikan menjalankan pekerjaan inferensi waktu nyata ml.g5.12xlarge untuk kinerja yang lebih baik. Atau, ml.g5.8xlarge instance cocok untuk tugas pembuatan teks Falcon-7B-Instruct dan MPT-7B-Instruct.

Anda dapat menemukan spesifikasi instans ini dalam kategori Accelerated Computing dalam pemilihan jenis instans yang disediakan oleh Amazon. EC2

Pembuatan teks waktu nyata

Anda dapat menggunakan SageMaker APIs untuk menerapkan model fine-tuned Anda secara manual ke titik akhir inferensi real-time Hosting SageMaker AI Hosting, lalu mulai membuat prediksi dengan memanggil titik akhir sebagai berikut.

catatan

Atau, Anda dapat memilih opsi penerapan otomatis saat membuat eksperimen fine-tuning Anda di Autopilot. Untuk informasi tentang pengaturan penerapan otomatis model, lihatCara mengaktifkan penyebaran otomatis.

Anda juga dapat menggunakan SageMaker Python SDK dan JumpStartModel kelas untuk melakukan inferensi dengan model yang disetel dengan baik oleh Autopilot. Ini dapat dilakukan dengan menentukan lokasi khusus untuk artefak model di Amazon S3. Untuk informasi tentang mendefinisikan model Anda sebagai model dan menerapkan JumpStart model Anda untuk inferensi, lihat Penerapan kode rendah dengan kelas. JumpStartModel

  1. Dapatkan definisi wadah inferensi kandidat

    Anda dapat menemukan bagian InferenceContainerDefinitions dalam BestCandidate objek yang diambil dari respons terhadap panggilan API DescribeAutoMLJobV2. Definisi kontainer untuk inferensi mengacu pada lingkungan kontainer yang dirancang untuk menerapkan dan menjalankan model terlatih Anda untuk membuat prediksi.

    Contoh AWS CLI perintah berikut menggunakan DescribeAutoMLJobV2 API untuk mendapatkan definisi kontainer yang direkomendasikan untuk nama pekerjaan Anda.

    aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
  2. Buat model SageMaker AI

    Gunakan definisi container dari langkah sebelumnya untuk membuat model SageMaker AI dengan menggunakan CreateModelAPI. Lihat AWS CLI perintah berikut sebagai contoh. Gunakan CandidateName untuk nama model Anda.

    aws sagemaker create-model --model-name '<your-candidate-name>' \ --primary-container '<container-definition' \ --execution-role-arn '<execution-role-arn>' --region '<region>
  3. Buat konfigurasi titik akhir

    Contoh AWS CLI perintah berikut menggunakan CreateEndpointConfigAPI untuk membuat konfigurasi endpoint.

    catatan

    Untuk mencegah pembuatan titik akhir dari kehabisan waktu karena unduhan model yang panjang, kami sarankan pengaturan ModelDataDownloadTimeoutInSeconds = 3600 dan. ContainerStartupHealthCheckTimeoutInSeconds = 3600

    aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \ --production-variants '<list-of-production-variants>' ModelDataDownloadTimeoutInSeconds=3600 ContainerStartupHealthCheckTimeoutInSeconds=3600 \ --region '<region>'
  4. Buat titik akhir

    AWS CLI Contoh berikut menggunakan CreateEndpointAPI untuk membuat titik akhir.

    aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \ --endpoint-config-name '<endpoint-config-name-you-just-created>' \ --region '<region>'

    Periksa kemajuan penerapan titik akhir Anda dengan menggunakan API. DescribeEndpoint Lihat AWS CLI perintah berikut sebagai contoh.

    aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>

    Setelah EndpointStatus perubahanInService, titik akhir siap digunakan untuk inferensi waktu nyata.

  5. Memanggil titik akhir

    Perintah berikut memanggil titik akhir untuk inferensi real-time. Prompt Anda perlu dikodekan dalam byte.

    catatan

    Format prompt input Anda tergantung pada model bahasa. Untuk informasi selengkapnya tentang format prompt pembuatan teks, lihatFormat permintaan untuk model pembuatan teks inferensi waktu nyata.

    aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ --region '<region>' --body '<your-promt-in-bytes>' [--content-type] 'application/json' <outfile>

Format permintaan untuk model pembuatan teks inferensi waktu nyata

Model bahasa besar yang berbeda (LLMs) mungkin memiliki dependensi perangkat lunak tertentu, lingkungan runtime, dan persyaratan perangkat keras yang memengaruhi wadah yang direkomendasikan Autopilot untuk meng-host model untuk inferensi. Selain itu, setiap model menentukan format data input yang diperlukan dan format yang diharapkan untuk prediksi dan output.

Berikut adalah contoh input untuk beberapa model dan wadah yang direkomendasikan.

  • Untuk model Falcon dengan wadah huggingface-pytorch-tgi-inference:2.0.1-tgi1.0.3-gpu-py39-cu118-ubuntu20.04 yang direkomendasikan:

    payload = { "inputs": "Large language model fine-tuning is defined as", "parameters": { "do_sample": false, "top_p": 0.9, "temperature": 0.1, "max_new_tokens": 128, "stop": ["<|endoftext|>", "</s>"] } }
  • Untuk semua model lain dengan wadah yang direkomendasikandjl-inference:0.22.1-fastertransformer5.3.0-cu118:

    payload= { "text_inputs": "Large language model fine-tuning is defined as" }
PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.