Eksperimen pembelajaran mesin menggunakan Amazon SageMaker dengan MLflow - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Eksperimen pembelajaran mesin menggunakan Amazon SageMaker dengan MLflow

Amazon SageMaker with MLflow adalah kemampuan Amazon SageMaker yang memungkinkan Anda membuat, mengelola, menganalisis, dan membandingkan eksperimen pembelajaran mesin Anda.

Eksperimen dalam pembelajaran mesin

Pembelajaran mesin adalah proses berulang yang membutuhkan eksperimen dengan berbagai kombinasi data, algoritma, dan parameter, sambil mengamati dampaknya terhadap akurasi model. Sifat berulang dari eksperimen ML menghasilkan banyak proses dan versi pelatihan model, sehingga sulit untuk melacak model berkinerja terbaik dan konfigurasinya. Kompleksitas mengelola dan membandingkan pelatihan berulang meningkat dengan kecerdasan buatan generatif (AI generatif), di mana eksperimen tidak hanya melibatkan model fine-tuning tetapi juga mengeksplorasi output yang kreatif dan beragam. Peneliti harus menyesuaikan hiperparameter, memilih arsitektur model yang sesuai, dan mengkurasi kumpulan data yang beragam untuk mengoptimalkan kualitas dan kreativitas konten yang dihasilkan. Mengevaluasi model AI generatif membutuhkan metrik kuantitatif dan kualitatif, menambahkan lapisan kompleksitas lain ke proses eksperimen.

Gunakan MLflow dengan Amazon SageMaker untuk melacak, mengatur, melihat, menganalisis, dan membandingkan eksperimen ML berulang untuk mendapatkan wawasan komparatif serta mendaftar serta menerapkan model berkinerja terbaik Anda.

MLflowintegrasi

Gunakan MLflow saat melatih dan mengevaluasi model untuk menemukan kandidat terbaik untuk kasus penggunaan Anda. Anda dapat membandingkan kinerja model, parameter, dan metrik di seluruh eksperimen di MLflow UI, melacak model terbaik Anda di Registri MLflow Model, mendaftarkannya secara otomatis sebagai SageMaker model, dan menerapkan model terdaftar ke SageMaker titik akhir.

Amazon SageMaker dengan MLflow

Gunakan MLflow untuk melacak dan mengelola fase eksperimen siklus hidup pembelajaran mesin (ML) dengan AWS integrasi untuk pengembangan model, manajemen, penerapan, dan pelacakan.

SageMaker Studio Amazon

Buat dan kelola pelacakan server, jalankan buku catatan untuk membuat eksperimen, dan akses MLflow UI untuk melihat dan membandingkan eksperimen yang dijalankan di seluruh Studio.

SageMaker Registri Model

Kelola versi model dan model katalog untuk produksi dengan mendaftarkan model secara otomatis dari MLflow Model Registry ke SageMaker Model Registry. Untuk informasi selengkapnya, lihat Secara otomatis mendaftarkan SageMaker model dengan SageMaker Model Registry.

SageMaker Inferensi

Siapkan model terbaik Anda untuk penerapan pada SageMaker titik akhir menggunakan. ModelBuilder Untuk informasi selengkapnya, lihat Menyebarkan MLflow model dengan ModelBuilder.

AWS Identity and Access Management

Konfigurasikan akses untuk MLflow menggunakan kontrol akses berbasis peran (RBAC) dengan. IAM Tulis kebijakan IAM identitas untuk mengotorisasi MLflow APIs yang dapat dipanggil oleh klien dari server MLflow pelacak. Semua MLflow REST APIs direpresentasikan sebagai IAM tindakan di bawah awalan sagemaker-mlflow layanan. Untuk informasi selengkapnya, lihat Menyiapkan IAM izin untuk MLflow.

AWS CloudTrail

Lihat log in AWS CloudTrail untuk membantu Anda mengaktifkan audit operasional dan risiko, tata kelola, dan kepatuhan akun Anda AWS . Untuk informasi selengkapnya, lihat AWS CloudTrail log.

Amazon EventBridge

Otomatiskan peninjauan model dan siklus hidup penerapan menggunakan peristiwa yang MLflow ditangkap oleh Amazon. EventBridge Untuk informasi selengkapnya, lihat EventBridge Acara Amazon.

Didukung Wilayah AWS

Amazon SageMaker dengan MLflow umumnya tersedia di semua Wilayah AWS komersial di mana Amazon SageMaker Studio tersedia, kecuali Wilayah dan AWS GovCloud (US) Wilayah China. SageMakerdengan MLflow tersedia hanya menggunakan AWS CLI di Eropa (Zurich), Asia Pasifik (Hyderabad), Asia Pasifik (Melbourne), dan Kanada Barat (Calgary). Wilayah AWS

Pelacakan server diluncurkan dalam satu zona ketersediaan dalam Wilayah yang ditentukan.

Cara kerjanya

Server MLflow Pelacakan memiliki tiga komponen utama: komputasi, penyimpanan metadata backend, dan penyimpanan artefak. Komputasi yang menghosting server pelacak dan penyimpanan metadata backend di-host dengan aman di akun layanan. SageMaker Penyimpanan artefak hidup dalam ember Amazon S3 di akun Anda sendiri AWS .

Diagram yang menunjukkan penyimpanan komputasi dan metadata untuk Server PelacakanMLflow.

Sebuah server pelacak memiliki ARN Anda dapat menggunakan ini ARN untuk menghubungkan MLflow SDK ke Server Pelacakan Anda dan mulai mencatat proses pelatihan AndaMLflow.

Baca terus untuk informasi lebih lanjut tentang konsep-konsep kunci berikut:

Penyimpanan metadata backend

Saat Anda membuat Server MLflow Pelacakan, penyimpanan backend, yang menyimpan berbagai metadata untuk setiap Run, seperti run ID, waktu mulai dan berakhir, parameter, dan metrik, secara otomatis dikonfigurasi dalam akun SageMaker layanan dan dikelola sepenuhnya untuk Anda.

Penyimpanan artifak

Untuk menyediakan MLflow penyimpanan persisten untuk metadata untuk setiap proses, seperti bobot model, gambar, file model, dan file data untuk eksperimen yang dijalankan, Anda harus membuat penyimpanan artefak menggunakan Amazon S3. Toko artefak harus diatur dalam AWS akun Anda dan Anda harus secara eksplisit memberikan MLflow akses ke Amazon S3 untuk mengakses toko artefak Anda. Untuk informasi selengkapnya, lihat Toko Artifact di dokumentasi. MLflow

MLflowMelacak ukuran Server

Anda dapat secara opsional menentukan ukuran server pelacakan Anda di UI Studio atau dengan AWS CLI parameter--tracking-server-size. Anda dapat memilih antara"Small","Medium", dan"Large". Ukuran konfigurasi server MLflow pelacakan default adalah"Small". Anda dapat memilih ukuran tergantung pada proyeksi penggunaan server pelacak seperti volume data yang dicatat, jumlah pengguna, dan frekuensi penggunaan.

Kami merekomendasikan menggunakan server pelacak kecil untuk tim hingga 25 pengguna, server pelacak menengah untuk tim hingga 50 pengguna, dan server pelacak besar untuk tim hingga 100 pengguna. Kami berasumsi bahwa semua pengguna akan membuat permintaan bersamaan ke Server MLflow Pelacakan Anda untuk membuat rekomendasi ini. Anda harus memilih ukuran server pelacakan berdasarkan pola penggunaan yang diharapkan dan TPS (Transaksi Per Detik) yang didukung oleh setiap server pelacak.

catatan

Sifat beban kerja Anda dan jenis permintaan yang Anda buat ke server pelacakan menentukan apa yang TPS Anda lihat.

Melacak ukuran server Berkelanjutan TPS Meledak TPS
Kecil Hingga 25 Hingga 50
Sedang Hingga 50 Hingga 100
Besar Hingga 100 Hingga 200

Melacak versi server

MLflowVersi berikut tersedia untuk digunakan dengan SageMaker:

MLflowversi Versi Python
MLflow2.13.2 Python 3.8 atau yang lebih baru

AWS CloudTrail log

AWS CloudTrail secara otomatis mencatat aktivitas yang terkait dengan Server MLflow Pelacakan Anda. APIPanggilan berikut masuk CloudTrail:

  • CreateMlflowTrackingServer

  • DescribeMlflowTrackingServer

  • UpdateMlflowTrackingServer

  • DeleteMlflowTrackingServer

  • ListMlflowTrackingServers

  • CreatePresignedMlflowTrackingServer

  • StartMlflowTrackingServer

  • StopMlflowTrackingServer

Untuk informasi selengkapnya CloudTrail, lihat Panduan AWS CloudTrail Pengguna.

EventBridge Acara Amazon

Gunakan EventBridge untuk merutekan acara dari penggunaan MLflow dengan SageMaker ke aplikasi konsumen di seluruh organisasi Anda. Peristiwa berikut dipancarkan ke: EventBridge

  • “SageMaker Melacak Pembuatan Server”

  • “Server SageMaker Pelacakan Dibuat”

  • “Membuat Server SageMaker Pelacakan Gagal”

  • “Memutakhirkan Server SageMaker Pelacakan”

  • “Server SageMaker Pelacakan Diperbarui”

  • “SageMaker Pelacakan Pembaruan Server Gagal”

  • “SageMaker Melacak Server Menghapus”

  • “Server SageMaker Pelacakan Dihapus”

  • “SageMaker Penghapusan Server Pelacakan Gagal”

  • “SageMaker Pelacakan Server Mulai”

  • “SageMaker Pelacakan Server Dimulai”

  • “SageMaker Pelacakan Server Mulai Gagal”

  • “SageMaker Pelacakan Server Berhenti”

  • “Server SageMaker Pelacakan Berhenti”

  • “SageMaker Pelacakan Server Berhenti Gagal”

  • “SageMaker Melacak Pemeliharaan Server Sedang Berlangsung”

  • “SageMaker Pelacakan Pemeliharaan Server Selesai”

  • “SageMaker Pelacakan Pemeliharaan Server Gagal”

  • “SageMaker MLFlowMelacak Server Membuat Jalankan”

  • “SageMaker MLFlowMelacak Pembuatan Server RegisteredModel”

  • “SageMaker MLFlowMelacak Pembuatan Server ModelVersion”

  • “SageMaker MLFlowMelacak Tahap Transisi ModelVersion Server”

  • “SageMaker MLFlowMelacak Pengaturan Server Alias Model Terdaftar”

Untuk informasi selengkapnya EventBridge, lihat Panduan EventBridge Pengguna Amazon.