Gunakan Feature Store dengan SDK untuk Python (Boto3) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan Feature Store dengan SDK untuk Python (Boto3)

Grup fitur adalah sumber daya Toko Fitur utama yang berisi data machine learning (ML) dan metadata yang disimpan di Amazon SageMaker Feature Store. Grup fitur adalah pengelompokan logis fitur dan catatan. Definisi grup fitur terdiri dari konfigurasi untuk toko online dan offline dan daftar definisi fitur yang digunakan untuk menggambarkan nilai catatan Anda. Definisi fitur harus menyertakan nama pengenal catatan dan nama waktu acara. Untuk informasi selengkapnya tentang konsep feature store, lihatKonsep Toko Fitur.

Sebelum menggunakan feature store, Anda biasanya memuat kumpulan data, menjalankan transformasi, dan menyiapkan fitur untuk dikonsumsi. Proses ini memiliki banyak variasi dan sangat tergantung pada data Anda. Kode contoh dalam topik berikut mengacu pada contoh buku catatan Pengantar Toko Fitur dan Deteksi Penipuan dengan Amazon SageMaker Feature Store. Keduanya menggunakan AWS SDK for Python (Boto3). Untuk contoh dan sumber daya Toko Fitur lainnya, lihatSumber daya Toko SageMaker Fitur Amazon.

Feature Store mendukung jenis fitur berikut:String, Fractional (nilai floating point IEEE 64-bit), dan Integral (nilai integral bertanda Int64 - 64 bit). Jenis default diatur keString. Ini berarti bahwa, jika kolom dalam kumpulan data Anda bukan dari tipe float atau long fitur, itu default di String feature store Anda.

Anda dapat menggunakan skema untuk mendeskripsikan kolom dan tipe data data Anda. Anda meneruskan skema ini ke dalamFeatureDefinitions, parameter yang diperlukan untuk aFeatureGroup. Anda dapat menggunakan SDK untuk Python (Boto3), yang memiliki deteksi tipe data otomatis saat Anda menggunakan fungsi tersebut. load_feature_definitions

Perilaku default saat catatan fitur baru ditambahkan dengan ID rekaman yang sudah ada adalah sebagai berikut. Di toko offline, catatan baru akan ditambahkan. Di toko online, jika waktu acara rekaman baru kurang dari waktu acara yang ada maka tidak akan terjadi apa-apa, tetapi jika waktu peristiwa dari catatan baru lebih besar dari atau sama dengan waktu acara yang ada, catatan akan ditimpa.

Saat Anda membuat grup fitur baru, Anda dapat memilih salah satu format tabel berikut:

  • AWS Glue (Default)

  • Gunung Es Apache

Menelan data, terutama saat streaming, dapat mengakibatkan sejumlah besar file kecil disimpan ke toko offline. Ini dapat berdampak negatif pada kinerja kueri karena jumlah operasi file yang lebih tinggi yang diperlukan. Untuk menghindari potensi masalah kinerja, gunakan format tabel Apache Iceberg saat membuat grup fitur baru. Dengan Iceberg Anda dapat memadatkan file data kecil menjadi lebih sedikit file besar di partisi, menghasilkan kueri yang jauh lebih cepat. Operasi pemadatan ini bersamaan dan tidak memengaruhi operasi baca dan tulis yang sedang berlangsung pada grup fitur. Jika Anda memilih opsi Iceberg saat membuat grup fitur baru, Amazon SageMaker Feature Store akan membuat tabel Iceberg menggunakan format file Parket, dan mendaftarkan tabel dengan. AWS Glue Data Catalog

penting

Perhatikan bahwa untuk grup fitur dalam format tabel Iceberg, Anda harus menentukan String sebagai nilai untuk waktu acara. Jika Anda menentukan jenis lainnya, Anda tidak dapat membuat grup fitur dengan sukses.

Berikut ini kami mencantumkan beberapa sumber daya terkelola Feature Store yang tersedia.