Mengatasi kesalahan saat membuat pekerjaan evaluasi model di Amazon SageMaker - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengatasi kesalahan saat membuat pekerjaan evaluasi model di Amazon SageMaker

penting

Untuk menggunakan SageMaker Clarify Foundation Model Evaluations (FMEval), Anda harus meningkatkan ke pengalaman Studio baru.

Pada 30 November 2023, pengalaman Amazon SageMaker Studio sebelumnya sekarang bernama Amazon SageMaker Studio Classic. FMEvaltidak tersedia di Amazon SageMaker Studio Classic.

Untuk informasi tentang cara meningkatkan ke pengalaman Studio baru, lihatMigrasi dari Amazon SageMaker Studio Classic. Untuk informasi tentang menggunakan aplikasi Studio Classic, lihatAmazon SageMaker Studio Klasik.

Jika Anda mengalami kesalahan saat membuat pekerjaan evaluasi model, gunakan daftar berikut untuk memecahkan masalah evaluasi Anda. Jika Anda memerlukan bantuan lebih lanjut, hubungi AWS Supportatau Forum AWS Pengembang untuk Amazon SageMaker.

Kesalahan saat mengunggah data Anda dari bucket Amazon S3

Saat membuat evaluasi model foundation, Anda harus menetapkan izin yang benar untuk bucket S3 tempat Anda ingin menyimpan input dan output model Anda. Jika izin berbagi sumber daya Cross-origin (CORS) tidak disetel dengan benar, SageMaker menghasilkan kesalahan berikut:

Kesalahan: Gagal meletakkan objek di s3: Kesalahan saat mengunggah objek ke S3Error: Gagal menempatkan objek di S3: NetworkError saat mencoba mengambil sumber daya.

Untuk menyetel izin bucket yang benar, ikuti petunjuk di bawah Mengatur lingkungan Anda diBuat pekerjaan evaluasi model otomatis di Studio.

Pekerjaan pemrosesan gagal diselesaikan

Alasan paling umum bahwa pekerjaan pemrosesan Anda gagal diselesaikan adalah sebagai berikut:

Lihat bagian berikut untuk membantu Anda mengurangi setiap masalah.

Kuota tidak mencukupi

Saat Anda menjalankan evaluasi model dasar untuk model yang tidak digunakan, SageMaker Clarify akan menerapkan JumpStart model bahasa besar (LLM) Anda ke SageMaker titik akhir di akun Anda. Jika akun Anda tidak memiliki kuota yang cukup untuk menjalankan JumpStart model yang dipilih, pekerjaan gagal dengan aClientError. Untuk meningkatkan kuota Anda, ikuti langkah-langkah berikut:

Minta peningkatan AWS Service Quotas
  1. Ambil nama instans, kuota saat ini dan kuota yang diperlukan dari pesan kesalahan di layar. Misalnya, dalam kesalahan berikut:

    • Nama instancenya adalahml.g5.12xlarge.

    • Kuota saat ini dari nomor berikut current utilization adalah 0 instances

    • Tambahan kuota yang diperlukan dari nomor berikut request delta adalah1 instances.

    Kesalahan sampel berikut:

    ClientError: An error occurred (ResourceLimitExceeded) when calling the CreateEndpoint operation: The account-level service limit 'ml.g5.12xlarge for endpoint usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please use AWS Service Quotas to request an increase for this quota. If AWS Service Quotas is not available, contact AWS support to request an increase for this quota

  2. Masuk ke AWS Management Console dan buka konsol Service Quotas.

  3. Di panel navigasi, di bawah Kelola kuota, masukan. Amazon SageMaker

  4. Pilih Lihat kuota.

  5. Di bilah pencarian di bawah Kuota layanan, masukkan nama instance dari Langkah 1. Misalnya, menggunakan informasi yang terkandung dalam pesan kesalahan dari Langkah 1, masukanml.g5.12xlarge.

  6. Pilih nama Kuota yang muncul di sebelah nama instans Anda dan diakhiri dengan untuk penggunaan titik akhir. Misalnya, menggunakan informasi yang terkandung dalam pesan kesalahan dari Langkah 1, pilih ml.g5.12xlarge untuk penggunaan endpoint.

  7. Pilih Permintaan peningkatan di tingkat akun.

  8. Di bawah Meningkatkan nilai kuota, masukkan kuota yang diperlukan dari informasi yang diberikan dalam pesan kesalahan dari Langkah 1. Masukan total current utilization danrequest delta. Dalam contoh kesalahan sebelumnya, current utilization is0 Instances, dan request delta is1 Instances. Dalam contoh ini, mintalah kuota 1 untuk memasok kuota yang diperlukan.

  9. Pilih Minta.

  10. Pilih Riwayat permintaan kuota dari panel navigasi.

  11. Saat Status berubah dari Tertunda menjadi Disetujui, jalankan kembali pekerjaan Anda. Anda mungkin perlu menyegarkan browser Anda untuk melihat perubahannya.

Untuk informasi selengkapnya tentang meminta peningkatan kuota, lihat Meminta kenaikan kuota.

Memori tidak mencukupi

Jika Anda memulai evaluasi model dasar pada EC2 instans Amazon yang tidak memiliki memori yang cukup untuk menjalankan algoritme evaluasi, pekerjaan gagal dengan kesalahan berikut:

The actor is dead because its worker process has died. Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors. The actor never ran - it was cancelled before it started running.

Untuk meningkatkan memori yang tersedia untuk pekerjaan evaluasi Anda, ubah instance Anda menjadi yang memiliki lebih banyak memori. Jika Anda menggunakan antarmuka pengguna, Anda dapat memilih jenis instans di bawah Konfigurasi prosesor di Langkah 2. Jika Anda menjalankan pekerjaan Anda di dalam SageMaker konsol, luncurkan ruang baru menggunakan instance dengan kapasitas memori yang meningkat.

Untuk daftar EC2 instans Amazon, lihat Jenis instans.

Untuk informasi selengkapnya, tentang instans dengan kapasitas memori yang lebih besar, lihat Instans yang dioptimalkan untuk memori.

Tidak lulus cek ping

Dalam beberapa kasus, pekerjaan evaluasi model dasar Anda akan gagal karena tidak lulus pemeriksaan ping saat menerapkan SageMaker titik akhir Anda. Jika tidak lulus tes ping, kesalahan berikut muncul:

ClientError: Error hosting endpoint your_endpoint_name: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint..., Job exited for model: your_model_name of model_type: your_model_type

Jika pekerjaan Anda menghasilkan kesalahan ini, tunggu beberapa menit dan jalankan pekerjaan Anda lagi. Jika kesalahan berlanjut, hubungi AWS Support atau Forum AWS Pengembang untuk Amazon SageMaker.

Anda tidak dapat menemukan evaluasi model dasar di konsol SageMaker

Untuk menggunakan SageMaker Clarify Foundation Model Evaluations, Anda harus meningkatkan ke pengalaman Studio baru. Pada 30 November 2023, pengalaman Amazon SageMaker Studio sebelumnya sekarang bernama Amazon SageMaker Studio Classic. Fitur evaluasi pondasi hanya dapat digunakan dalam pengalaman yang diperbarui. Untuk informasi tentang cara memperbarui Studio, lihatMigrasi dari Amazon SageMaker Studio Classic.

Model Anda tidak mendukung stereotip yang cepat

Hanya beberapa JumpStart model yang mendukung stereotip cepat. Jika Anda memilih JumpStart model yang tidak didukung, kesalahan berikut akan muncul:

{"evaluationMetrics":"This model does not support Prompt stereotyping evaluation. Please remove that evaluation metric or select another model that supports it."}

Jika Anda menerima kesalahan ini, Anda tidak dapat menggunakan model yang Anda pilih dalam evaluasi yayasan. SageMaker Clarify saat ini bekerja untuk memperbarui semua JumpStart model untuk tugas stereotip yang cepat sehingga dapat digunakan dalam evaluasi model dasar.

Kesalahan validasi kumpulan data (Manusia)

Dataset prompt kustom dalam pekerjaan evaluasi model yang menggunakan pekerja manusia harus diformat menggunakan format JSON baris menggunakan ekstensi. .jsonl

Saat Anda memulai pekerjaan, setiap JSON objek dalam kumpulan data prompt divalidasi secara saling bergantung. Jika salah satu JSON objek tidak valid Anda mendapatkan kesalahan berikut.

Customer Error: Your input dataset could not be validated. Your dataset can have up to 1000 prompts. The dataset must be a valid jsonl file, and each prompt valid json object.To learn more about troubleshooting dataset validations errors, see Troubleshooting guide. Job executed for models: meta-textgeneration-llama-2-7b-f, pytorch-textgeneration1-alexa20b.

Agar kumpulan data prompt kustom melewati semua validasi, berikut ini harus benar untuk semua JSON objek dalam file baris. JSON

  • Setiap baris dalam file dataset prompt harus merupakan JSON objek yang valid.

  • Karakter khusus seperti tanda kutip (") harus lolos dengan benar. Misalnya, jika prompt Anda adalah sebagai berikut, tanda "Claire said to the crowd, "Bananas are the best!"" kutip harus diloloskan menggunakan\,"Claire said to the crowd, \"Bananas are the best!\"".

  • JSONObjek yang valid harus berisi setidaknya pasangan prompt kunci/nilai.

  • File dataset prompt tidak dapat berisi lebih dari 1.000 JSON objek dalam satu file.

  • Jika Anda menentukan responses kunci dalam JSON objek apa pun, itu harus ada di semua JSON objek.

  • Jumlah maksimum objek dalam responses kunci adalah 1. Jika Anda memiliki tanggapan dari beberapa model yang ingin Anda bandingkan, masing-masing memerlukan BYOI kumpulan data terpisah.

  • Jika Anda menentukan responses kunci dalam JSON objek apa pun, itu juga harus berisi text kunci modelIdentifier dan di semua responses objek.