Buat, simpan, dan bagikan fitur dengan Feature Store - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat, simpan, dan bagikan fitur dengan Feature Store

Proses pengembangan machine learning (ML) termasuk mengekstraksi data mentah, mengubahnya menjadi fitur (input yang berarti untuk model ML Anda). Fitur-fitur tersebut kemudian disimpan dengan cara yang dapat diservis untuk eksplorasi data, pelatihan ML, dan inferensi ML. Amazon SageMaker Feature Store menyederhanakan cara Anda membuat, menyimpan, berbagi, dan mengelola fitur. Ini dilakukan dengan menyediakan opsi feature store dan mengurangi pemrosesan data berulang dan pekerjaan kurasi.

Antara lain, dengan Feature Store Anda dapat:

  • Sederhanakan pemrosesan fitur, penyimpanan, pengambilan, dan berbagi fitur untuk pengembangan ML di seluruh akun atau dalam organisasi.

  • Lacak pengembangan kode pemrosesan fitur Anda, terapkan prosesor fitur Anda ke data mentah, dan serap fitur Anda ke Feature Store secara konsisten. Ini mengurangi kemiringan penyajian pelatihan, masalah umum di ML di mana perbedaan antara kinerja selama pelatihan dan penyajian dapat memengaruhi keakuratan model ML Anda.

  • Simpan fitur Anda dan metadata terkait dalam grup fitur, sehingga fitur dapat dengan mudah ditemukan dan digunakan kembali. Grup fitur dapat berubah dan dapat mengembangkan skema mereka setelah pembuatan.

  • Buat grup fitur yang dapat dikonfigurasi untuk menyertakan toko online atau offline, atau keduanya, untuk mengelola fitur Anda dan mengotomatiskan bagaimana fitur disimpan untuk tugas ML Anda.

    • Toko online hanya menyimpan catatan terbaru untuk fitur Anda. Ini terutama dirancang untuk mendukung prediksi waktu nyata yang membutuhkan pembacaan latensi milidetik rendah dan penulisan throughput tinggi.

    • Toko offline menyimpan semua catatan untuk fitur Anda sebagai database historis. Ini terutama ditujukan untuk eksplorasi data, pelatihan model, dan prediksi batch.

Diagram berikut menunjukkan bagaimana Anda dapat menggunakan Feature Store sebagai bagian dari pipeline ML Anda. Setelah Anda membaca dalam data mentah Anda, Anda dapat menggunakan Feature Store untuk mengubah data mentah menjadi fitur dan memasukkannya ke dalam grup fitur Anda. Fitur-fiturnya dapat dicerna melalui streaming atau batch ke toko online dan offline grup fitur. Fitur-fitur tersebut kemudian dapat disajikan untuk eksplorasi data, pelatihan model, dan inferensi real-time atau batch.

Di mana Feature Store cocok dengan pipeline pembelajaran mesin Anda.

Cara kerja Feature Store

Di Feature Store, fitur disimpan dalam koleksi yang disebut grup fitur. Anda dapat memvisualisasikan grup fitur sebagai tabel di mana setiap kolom adalah fitur, dengan pengidentifikasi unik untuk setiap baris. Pada prinsipnya, grup fitur terdiri dari fitur dan nilai khusus untuk setiap fitur. A Record adalah kumpulan nilai untuk fitur yang sesuai dengan yang unikRecordIdentifier. Secara keseluruhan, a FeatureGroup adalah sekelompok fitur yang didefinisikan dalam Anda FeatureStore untuk menggambarkan aRecord

Anda dapat menggunakan Feature Store dalam mode berikut: 

  • Online — Dalam mode online, fitur dibaca dengan pembacaan latensi rendah (milidetik) dan digunakan untuk prediksi throughput tinggi. Mode ini membutuhkan grup fitur untuk disimpan di toko online. 

  • Offline — Dalam mode offline, aliran data yang besar diumpankan ke toko offline, yang dapat digunakan untuk pelatihan dan inferensi batch. Mode ini membutuhkan grup fitur untuk disimpan di toko offline. Toko offline menggunakan bucket S3 Anda untuk penyimpanan dan juga dapat mengambil data menggunakan kueri Athena. 

  • Online dan Offline — Ini termasuk mode online dan offline.

Anda dapat memasukkan data ke dalam grup fitur di Feature Store dengan dua cara: streaming atau dalam batch. Saat Anda menelan data melalui streaming, kumpulan catatan didorong ke Feature Store dengan memanggil panggilan sinkron PutRecordAPI. Ini API memungkinkan Anda mempertahankan nilai fitur terbaru di Feature Store dan mendorong nilai fitur baru segera setelah pembaruan terdeteksi.

Atau, Feature Store dapat memproses dan menelan data dalam batch. Misalnya, Anda dapat membuat fitur menggunakan Amazon SageMaker Data Wrangler dan mengekspor buku catatan dari Data Wrangler. Notebook dapat menjadi pekerjaan SageMaker Pemrosesan yang menyerap fitur dalam batch ke grup fitur Feature Store. Mode ini memungkinkan konsumsi batch ke toko offline. Ini juga mendukung konsumsi ke toko online jika grup fitur dikonfigurasi untuk penggunaan online dan offline. 

Buat grup fitur

Untuk memasukkan fitur ke dalam Feature Store, Anda harus terlebih dahulu menentukan grup fitur dan definisi fitur (nama fitur dan tipe data) untuk semua fitur yang termasuk dalam grup fitur. Setelah dibuat, grup fitur dapat berubah dan dapat mengembangkan skema mereka. Nama grup fitur unik dalam Wilayah AWS dan Akun AWS. Saat membuat grup fitur, Anda juga dapat membuat metadata untuk grup fitur. Metadata dapat berisi deskripsi singkat, konfigurasi penyimpanan, fitur untuk mengidentifikasi setiap catatan, dan waktu acara. Selanjutnya, metadata dapat mencakup tag untuk menyimpan informasi seperti penulis, sumber data, versi, dan banyak lagi.

penting

FeatureGroupnama atau metadata terkait seperti deskripsi atau tag tidak boleh berisi informasi identitas pribadi (PII) atau informasi rahasia apa pun.

Temukan, temukan, dan bagikan fitur

Setelah Anda membuat grup fitur di Feature Store, pengguna resmi lainnya dari feature store dapat berbagi dan menemukannya. Pengguna dapat menelusuri daftar semua grup fitur di Toko Fitur atau menemukan grup fitur yang ada dengan mencari berdasarkan nama grup fitur, deskripsi, nama pengenal catatan, tanggal pembuatan, dan tag. 

Inferensi waktu nyata untuk fitur yang disimpan di toko online 

Dengan Feature Store, Anda dapat memperkaya fitur yang disimpan di toko online secara real time dengan data dari sumber streaming (data aliran bersih dari aplikasi lain) dan menyajikan fitur dengan latensi milidetik rendah untuk inferensi waktu nyata. 

Anda juga dapat melakukan gabungan di berbagai FeatureGroups untuk inferensi real-time dengan menanyakan dua yang berbeda FeatureGroups dalam aplikasi klien. 

Toko offline untuk pelatihan model dan inferensi batch

Feature Store menyediakan penyimpanan offline untuk nilai fitur di bucket S3 Anda. Data Anda disimpan di bucket S3 Anda menggunakan skema awalan berdasarkan waktu acara. Toko offline adalah toko khusus tambahan, memungkinkan Toko Fitur untuk menyimpan catatan historis semua nilai fitur. Data disimpan di toko offline dalam format Parket untuk penyimpanan dan akses kueri yang dioptimalkan.

Anda dapat melakukan kueri, menjelajahi, dan memvisualisasikan fitur menggunakan Data Wrangler dari konsol.  Feature Store mendukung penggabungan data untuk menghasilkan, melatih, memvalidasi, dan menguji kumpulan data, dan memungkinkan Anda mengekstrak data pada titik waktu yang berbeda.

Menelan data fitur

Jaringan pipa generasi fitur dapat dibuat untuk memproses batch besar (1 juta baris data atau lebih) atau batch kecil, dan untuk menulis data fitur ke toko offline atau online. Sumber streaming seperti Amazon Managed Streaming for Apache Kafka atau Amazon Kinesis juga dapat digunakan sebagai sumber data dari mana fitur diekstraksi dan langsung diumpankan ke toko online untuk pelatihan, inferensi, atau pembuatan fitur. 

Anda dapat mendorong catatan ke Feature Store dengan memanggil panggilan sinkron PutRecordAPI. Karena ini adalah API panggilan sinkron, ini memungkinkan sejumlah kecil pembaruan didorong dalam satu API panggilan. Ini memungkinkan Anda untuk mempertahankan kesegaran nilai fitur yang tinggi dan mempublikasikan nilai segera setelah pembaruan terdeteksi. Ini juga disebut fitur streaming

Ketika data fitur dicerna dan diperbarui, Feature Store menyimpan data historis untuk semua fitur di toko offline. Untuk batch ingest, Anda dapat menarik nilai fitur dari bucket S3 Anda atau menggunakan Athena untuk melakukan kueri. Anda juga dapat menggunakan Data Wrangler untuk memproses dan merekayasa fitur baru yang kemudian dapat diekspor ke bucket S3 yang dipilih untuk diakses oleh Feature Store. Untuk batch ingestion, Anda dapat mengonfigurasi tugas pemrosesan untuk mengumpulkan data secara batch ke Feature Store, atau Anda dapat menarik nilai fitur dari bucket S3 menggunakan Athena. 

Untuk menghapus a Record dari toko online Anda, gunakan DeleteRecordAPIpanggilan. Ini juga akan menambahkan catatan yang dihapus ke toko offline.

Ketahanan di Toko Fitur

Toko Fitur didistribusikan di beberapa Availability Zone (AZs). AZ adalah lokasi yang terisolasi di dalam file Wilayah AWS. Jika beberapa AZs gagal, Feature Store dapat menggunakan yang lainAZs. Untuk informasi lebih lanjut tentangAZs, lihatKetahanan di Amazon SageMaker.