Terapkan model yang telah dioptimalkan sebelumnya

Mode fokus

Terapkan model yang telah dioptimalkan sebelumnya - Amazon SageMaker AI

Beberapa model telah JumpStart dioptimalkan sebelumnya oleh SageMaker AI, yang berarti Anda dapat menerapkan versi yang dioptimalkan dari model ini tanpa terlebih dahulu membuat pekerjaan pengoptimalan inferensi.

Untuk daftar model dengan opsi yang telah dioptimalkan sebelumnya, lihatModel pra-dioptimalkan JumpStart .

Gunakan prosedur berikut untuk menerapkan JumpStart model yang telah dioptimalkan sebelumnya menggunakan Amazon SageMaker Studio.

Untuk menerapkan model yang telah dioptimalkan sebelumnya

Di Studio, di menu navigasi di sebelah kiri, pilih JumpStart.
Pada halaman Semua model publik, pilih salah satu model yang telah dioptimalkan sebelumnya.
Pada halaman detail model, pilih Deploy.
Pada halaman penerapan, beberapa JumpStart model mengharuskan Anda untuk menandatangani perjanjian lisensi pengguna akhir (EULA) sebelum Anda dapat melanjutkan. Jika diminta, tinjau persyaratan lisensi di bagian Perjanjian Lisensi. Jika persyaratan dapat diterima untuk kasus penggunaan Anda, pilih kotak centang untuk Saya menerima EULA, dan baca syarat dan ketentuan.

Untuk informasi selengkapnya, lihat Perjanjian lisensi pengguna akhir.
Untuk nama Endpoint dan jumlah instans awal, terima nilai default atau setel yang kustom.
Untuk tipe Instance, pertahankan nilai default. Jika tidak, Anda tidak dapat menerapkan konfigurasi yang telah dioptimalkan sebelumnya.
Di bawah Model, perluas konfigurasi model. Studio menampilkan tabel yang menyediakan konfigurasi yang telah dioptimalkan sebelumnya yang dapat Anda pilih. Setiap opsi memiliki metrik untuk latensi dan throughput. Pilih opsi yang paling sesuai dengan kebutuhan aplikasi Anda.
Pilih Deploy.

SageMaker Studio Amazon

Gunakan prosedur berikut untuk menerapkan JumpStart model yang telah dioptimalkan sebelumnya menggunakan Amazon SageMaker Studio.

Untuk menerapkan model yang telah dioptimalkan sebelumnya

Di Studio, di menu navigasi di sebelah kiri, pilih JumpStart.
Pada halaman Semua model publik, pilih salah satu model yang telah dioptimalkan sebelumnya.
Pada halaman detail model, pilih Deploy.
Pada halaman penerapan, beberapa JumpStart model mengharuskan Anda untuk menandatangani perjanjian lisensi pengguna akhir (EULA) sebelum Anda dapat melanjutkan. Jika diminta, tinjau persyaratan lisensi di bagian Perjanjian Lisensi. Jika persyaratan dapat diterima untuk kasus penggunaan Anda, pilih kotak centang untuk Saya menerima EULA, dan baca syarat dan ketentuan.

Untuk informasi selengkapnya, lihat Perjanjian lisensi pengguna akhir.
Untuk nama Endpoint dan jumlah instans awal, terima nilai default atau setel yang kustom.
Untuk tipe Instance, pertahankan nilai default. Jika tidak, Anda tidak dapat menerapkan konfigurasi yang telah dioptimalkan sebelumnya.
Di bawah Model, perluas konfigurasi model. Studio menampilkan tabel yang menyediakan konfigurasi yang telah dioptimalkan sebelumnya yang dapat Anda pilih. Setiap opsi memiliki metrik untuk latensi dan throughput. Pilih opsi yang paling sesuai dengan kebutuhan aplikasi Anda.
Pilih Deploy.

Anda dapat menerapkan model yang telah dioptimalkan sebelumnya dengan menggunakan AI SageMaker Python SDK dalam proyek Anda. Pertama, Anda mendefinisikan sebuah Model instance dengan menggunakan ModelBuilder kelas. Kemudian, Anda menggunakan set_deployment_config() metode untuk mengatur konfigurasi yang telah dioptimalkan sebelumnya yang ingin Anda terapkan. Kemudian, Anda menggunakan build() metode untuk membangun model. Akhirnya, Anda menggunakan deploy() metode untuk menerapkannya ke titik akhir inferensi.

Untuk informasi selengkapnya tentang kelas dan metode yang digunakan dalam contoh berikut, lihat APIsdi dokumentasi SageMaker AI Python SDK.

Untuk menyiapkan proyek Anda

Dalam kode aplikasi Anda, impor pustaka yang diperlukan. Contoh berikut mengimpor SDK untuk Python (Boto3). Ini juga mengimpor modul dari SageMaker AI Python SDK yang Anda gunakan untuk mendefinisikan dan bekerja dengan model:
```
import boto3
from sagemaker.serve.builder.model_builder import ModelBuilder
from sagemaker.serve.builder.schema_builder import SchemaBuilder
from sagemaker.session import Session
```
Inisialisasi sesi SageMaker AI. Contoh berikut menggunakan Session() kelas:
```
sagemaker_session = Session()
```

Untuk menentukan model Anda

Buat SchemaBuilder instance, dan berikan sampel input dan output. Anda menyediakan instance ini ke ModelBuilder kelas ketika Anda mendefinisikan model. Dengan itu, SageMaker AI secara otomatis menghasilkan fungsi marshalling untuk membuat serial dan deserialisasi input dan output.

Untuk informasi selengkapnya tentang penggunaan SchemaBuilder dan ModelBuilder kelas, lihatBuat model di Amazon SageMaker AI dengan ModelBuilder.

Contoh berikut memberikan sampel input dan output string ke SchemaBuilder kelas:
```
response = "Jupiter is the largest planet in the solar system. It is the fifth planet from the sun."
sample_input = {
    "inputs": "What is the largest planet in the solar system?",
    "parameters": {"max_new_tokens": 128, "top_p": 0.9, "temperature": 0.6},
}
sample_output = [{"generated_text": response}]
schema_builder = SchemaBuilder(sample_input, sample_output)
```
Tentukan model Anda ke SageMaker AI. Contoh berikut menetapkan parameter untuk menginisialisasi ModelBuilder instance:
```
model_builder = ModelBuilder(
    model="jumpstart-model-id",
    schema_builder=schema_builder,
    sagemaker_session=sagemaker_session,
    role_arn=sagemaker_session.get_caller_identity_arn(),
)
```
Contoh ini menggunakan JumpStart model. Ganti jumpstart-model-id dengan ID JumpStart model, sepertimeta-textgeneration-llama-3-70b.

Untuk mengambil metrik benchmark

Untuk menentukan konfigurasi pra-optimasi mana yang ingin Anda terapkan, cari opsi yang disediakan SageMaker AI. Contoh berikut menampilkannya:


model_builder.display_benchmark_metrics()

display_benchmark_metrics()Metode ini mencetak tabel seperti berikut:


| Instance Type   | Config Name   |   Concurrent Users |   Latency, TTFT (P50 in sec) |   Throughput (P50 in tokens/sec/user) |
|:----------------|:--------------|-------------------:|-----------------------------:|--------------------------------------:|
| ml.g5.48xlarge  | lmi-optimized |                  1 |                         2.25 |                                 49.70 |
| ml.g5.48xlarge  | lmi-optimized |                  2 |                         2.28 |                                 21.10 |
| ml.g5.48xlarge  | lmi-optimized |                  4 |                         2.37 |                                 14.10 |
. . .
| ml.p4d.24xlarge | lmi-optimized |                  1 |                         0.10 |                                137.40 |
| ml.p4d.24xlarge | lmi-optimized |                  2 |                         0.11 |                                109.20 |
| ml.p4d.24xlarge | lmi-optimized |                  4 |                         0.13 |                                 85.00 |
. . .

Di kolom pertama, tabel mencantumkan jenis instance potensial yang dapat Anda gunakan untuk meng-host JumpStart model yang Anda pilih. Untuk setiap jenis instance, di bawahConfig Name, ini mencantumkan nama konfigurasi yang telah dioptimalkan sebelumnya. Konfigurasi yang disediakan SageMaker AI diberi namalmi-optimized. Untuk setiap jenis dan konfigurasi instans, tabel menyediakan metrik benchmark. Metrik ini menunjukkan throughput dan latensi yang akan didukung model Anda untuk jumlah pengguna bersamaan yang berbeda.

Berdasarkan metrik benchmark, pilih jenis instans dan nama konfigurasi yang paling mendukung kebutuhan kinerja Anda. Anda akan menggunakan nilai-nilai ini ketika Anda membuat konfigurasi penerapan.

Untuk menerapkan model yang telah dioptimalkan sebelumnya

Buat konfigurasi penerapan. Contoh berikut menggunakan ModelBuilder contoh. Ini meneruskan tipe instance dan nama konfigurasi ke set_deployment_config() metode:
```
model_builder.set_deployment_config(
    config_name="config-name", 
    instance_type="instance-type",
)
```
Ganti config-name dengan nama konfigurasi dari tabel, seperti sepertilmi-optimized. Ganti instance-type dengan tipe instance dari tabel, sepertiml.p4d.24xlarge.
Bangun model Anda. Contoh berikut menggunakan .build() metode ModelBuilder instance:
```
optimized_model = model_builder.build()
```
.build()Metode mengembalikan instance deployableModel.
Terapkan model Anda ke titik akhir inferensi. Contoh berikut menggunakan .deploy() metode Model instance:
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy()Metode mengembalikan Predictor instance, yang dapat Anda gunakan untuk mengirim permintaan inferensi ke model.

Untuk menguji model Anda dengan permintaan inferensi

Setelah Anda menerapkan model Anda ke titik akhir inferensi, uji prediksi model. Contoh berikut mengirimkan permintaan inferensi dengan menggunakan Predictor instance:
```
predictor.predict(sample_input)
```
Model mengembalikan teks yang dihasilkannya dengan respons seperti berikut:
```
{'generated_text': ' Jupiter is the largest planet in the solar system. It is the fifth planet from the sun. It is a gas giant with . . .'}
```

SageMaker SDK Python AI

Untuk informasi selengkapnya tentang kelas dan metode yang digunakan dalam contoh berikut, lihat APIsdi dokumentasi SageMaker AI Python SDK.

Untuk menyiapkan proyek Anda

Dalam kode aplikasi Anda, impor pustaka yang diperlukan. Contoh berikut mengimpor SDK untuk Python (Boto3). Ini juga mengimpor modul dari SageMaker AI Python SDK yang Anda gunakan untuk mendefinisikan dan bekerja dengan model:
```
import boto3
from sagemaker.serve.builder.model_builder import ModelBuilder
from sagemaker.serve.builder.schema_builder import SchemaBuilder
from sagemaker.session import Session
```
Inisialisasi sesi SageMaker AI. Contoh berikut menggunakan Session() kelas:
```
sagemaker_session = Session()
```

Untuk menentukan model Anda

Buat SchemaBuilder instance, dan berikan sampel input dan output. Anda menyediakan instance ini ke ModelBuilder kelas ketika Anda mendefinisikan model. Dengan itu, SageMaker AI secara otomatis menghasilkan fungsi marshalling untuk membuat serial dan deserialisasi input dan output.

Untuk informasi selengkapnya tentang penggunaan SchemaBuilder dan ModelBuilder kelas, lihatBuat model di Amazon SageMaker AI dengan ModelBuilder.

Contoh berikut memberikan sampel input dan output string ke SchemaBuilder kelas:
```
response = "Jupiter is the largest planet in the solar system. It is the fifth planet from the sun."
sample_input = {
    "inputs": "What is the largest planet in the solar system?",
    "parameters": {"max_new_tokens": 128, "top_p": 0.9, "temperature": 0.6},
}
sample_output = [{"generated_text": response}]
schema_builder = SchemaBuilder(sample_input, sample_output)
```
Tentukan model Anda ke SageMaker AI. Contoh berikut menetapkan parameter untuk menginisialisasi ModelBuilder instance:
```
model_builder = ModelBuilder(
    model="jumpstart-model-id",
    schema_builder=schema_builder,
    sagemaker_session=sagemaker_session,
    role_arn=sagemaker_session.get_caller_identity_arn(),
)
```
Contoh ini menggunakan JumpStart model. Ganti jumpstart-model-id dengan ID JumpStart model, sepertimeta-textgeneration-llama-3-70b.

Untuk mengambil metrik benchmark

Untuk menentukan konfigurasi pra-optimasi mana yang ingin Anda terapkan, cari opsi yang disediakan SageMaker AI. Contoh berikut menampilkannya:


model_builder.display_benchmark_metrics()

display_benchmark_metrics()Metode ini mencetak tabel seperti berikut:


| Instance Type   | Config Name   |   Concurrent Users |   Latency, TTFT (P50 in sec) |   Throughput (P50 in tokens/sec/user) |
|:----------------|:--------------|-------------------:|-----------------------------:|--------------------------------------:|
| ml.g5.48xlarge  | lmi-optimized |                  1 |                         2.25 |                                 49.70 |
| ml.g5.48xlarge  | lmi-optimized |                  2 |                         2.28 |                                 21.10 |
| ml.g5.48xlarge  | lmi-optimized |                  4 |                         2.37 |                                 14.10 |
. . .
| ml.p4d.24xlarge | lmi-optimized |                  1 |                         0.10 |                                137.40 |
| ml.p4d.24xlarge | lmi-optimized |                  2 |                         0.11 |                                109.20 |
| ml.p4d.24xlarge | lmi-optimized |                  4 |                         0.13 |                                 85.00 |
. . .

Berdasarkan metrik benchmark, pilih jenis instans dan nama konfigurasi yang paling mendukung kebutuhan kinerja Anda. Anda akan menggunakan nilai-nilai ini ketika Anda membuat konfigurasi penerapan.

Untuk menerapkan model yang telah dioptimalkan sebelumnya

Buat konfigurasi penerapan. Contoh berikut menggunakan ModelBuilder contoh. Ini meneruskan tipe instance dan nama konfigurasi ke set_deployment_config() metode:
```
model_builder.set_deployment_config(
    config_name="config-name", 
    instance_type="instance-type",
)
```
Ganti config-name dengan nama konfigurasi dari tabel, seperti sepertilmi-optimized. Ganti instance-type dengan tipe instance dari tabel, sepertiml.p4d.24xlarge.
Bangun model Anda. Contoh berikut menggunakan .build() metode ModelBuilder instance:
```
optimized_model = model_builder.build()
```
.build()Metode mengembalikan instance deployableModel.
Terapkan model Anda ke titik akhir inferensi. Contoh berikut menggunakan .deploy() metode Model instance:
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy()Metode mengembalikan Predictor instance, yang dapat Anda gunakan untuk mengirim permintaan inferensi ke model.

Untuk menguji model Anda dengan permintaan inferensi

Setelah Anda menerapkan model Anda ke titik akhir inferensi, uji prediksi model. Contoh berikut mengirimkan permintaan inferensi dengan menggunakan Predictor instance:
```
predictor.predict(sample_input)
```
Model mengembalikan teks yang dihasilkannya dengan respons seperti berikut:
```
{'generated_text': ' Jupiter is the largest planet in the solar system. It is the fifth planet from the sun. It is a gas giant with . . .'}
```

Model pra-dioptimalkan JumpStart

Berikut ini adalah JumpStart model yang memiliki konfigurasi yang telah dioptimalkan sebelumnya.

HuggingFace

Instruksi Mixtral 8x7B
Mixtral 8x7B
Instruksi Mistral 7B
Mistral 7B

Model pra-kompilasi JumpStart

Untuk beberapa model dan konfigurasi, SageMaker AI menyediakan model yang telah dikompilasi sebelumnya untuk instans AWS Inferentia dan AWS Trainium tertentu. Untuk ini, jika Anda membuat pekerjaan pengoptimalan kompilasi, dan Anda memilih ml.inf2.48xlarge atau ml.trn1.32xlarge sebagai jenis instance penerapan, AI mengambil artefak yang dikompilasi. SageMaker Karena pekerjaan menggunakan model yang sudah dikompilasi, pekerjaan selesai dengan cepat tanpa menjalankan kompilasi dari awal.

Berikut ini adalah JumpStart model yang SageMaker AI memiliki model pra-kompilasi:

HuggingFace

Mistral 7B

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Optimalisasi inferensi

Buat pekerjaan pengoptimalan

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Terapkan model yang telah dioptimalkan sebelumnya

Untuk menerapkan model yang telah dioptimalkan sebelumnya

SageMaker Studio Amazon

Untuk menerapkan model yang telah dioptimalkan sebelumnya

Untuk menyiapkan proyek Anda

Untuk menentukan model Anda

Untuk mengambil metrik benchmark

Untuk menerapkan model yang telah dioptimalkan sebelumnya

Untuk menguji model Anda dengan permintaan inferensi

SageMaker SDK Python AI

Untuk menyiapkan proyek Anda

Untuk menentukan model Anda

Untuk mengambil metrik benchmark

Untuk menerapkan model yang telah dioptimalkan sebelumnya

Untuk menguji model Anda dengan permintaan inferensi

Model pra-dioptimalkan JumpStart

Meta

HuggingFace

Model pra-kompilasi JumpStart

Meta

HuggingFace

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?