Algoritma Random Cut Forest (RCF) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Algoritma Random Cut Forest (RCF)

Amazon SageMaker Random Cut Forest (RCF) adalah algoritma tanpa pengawasan untuk mendeteksi titik data anomali dalam kumpulan data. Ini adalah pengamatan yang menyimpang dari data yang terstruktur atau berpola dengan baik. Anomali dapat bermanifestasi sebagai lonjakan tak terduga dalam data deret waktu, jeda periodisitas, atau titik data yang tidak dapat diklasifikasikan. Mereka mudah dijelaskan dalam hal itu, ketika dilihat dalam plot, mereka sering mudah dibedakan dari data “biasa”. Memasukkan anomali ini dalam kumpulan data dapat secara drastis meningkatkan kompleksitas tugas pembelajaran mesin karena data “reguler” sering dapat dijelaskan dengan model sederhana.

Dengan setiap titik data, RCF mengaitkan skor anomali. Nilai skor rendah menunjukkan bahwa titik data dianggap “normal.” Nilai tinggi menunjukkan adanya anomali dalam data. Definisi “rendah” dan “tinggi” tergantung pada aplikasi tetapi praktik umum menunjukkan bahwa skor di luar tiga standar deviasi dari skor rata-rata dianggap anomali.

Meskipun ada banyak aplikasi algoritma deteksi anomali untuk data deret waktu satu dimensi seperti analisis volume lalu lintas atau deteksi lonjakan volume suara, RCF dirancang untuk bekerja dengan input dimensi sewenang-wenang. Amazon SageMaker RCF menskalakan dengan baik sehubungan dengan jumlah fitur, ukuran kumpulan data, dan jumlah instans.

Antarmuka Input/Output untuk Algoritma RCF

Amazon SageMaker Random Cut Forest mendukung train dan saluran test data. Saluran uji opsional digunakan untuk menghitung metrik akurasi, presisi, penarikan, dan skor F1 pada data berlabel. Melatih dan menguji jenis konten data dapat berupa salah satu application/x-recordio-protobuf atau text/csv format. Untuk data pengujian, saat menggunakan format teks/csv, konten harus ditentukan sebagai teks/csv; label_size=1 di mana kolom pertama dari setiap baris mewakili label anomali: “1" untuk titik data anomali dan “0" untuk titik data normal. Anda dapat menggunakan mode File atau mode Pipa untuk melatih RCF model pada data yang diformat sebagai recordIO-wrapped-protobuf atau sebagai CSV

Saluran kereta hanya mendukung S3DataDistributionType=ShardedByS3Key dan saluran uji hanya mendukungS3DataDistributionType=FullyReplicated. Contoh berikut menentukan jenis distribusi S3 untuk saluran kereta menggunakan Amazon Python SageMaker . SDK

catatan

sagemaker.inputs.s3_inputMetode ini diubah namanya menjadi sagemaker.inputs.TrainingInput di SageMaker SDKPython v2.

import sagemaker # specify Random Cut Forest training job information and hyperparameters rcf = sagemaker.estimator.Estimator(...) # explicitly specify "ShardedByS3Key" distribution type train_data = sagemaker.inputs.TrainingInput( s3_data=s3_training_data_location, content_type='text/csv;label_size=0', distribution='ShardedByS3Key') # run the training job on input data stored in S3 rcf.fit({'train': train_data})

Untuk menghindari kesalahan umum seputar peran eksekusi, pastikan bahwa Anda memiliki peran eksekusi yang diperlukan, AmazonSageMakerFullAccess danAmazonEC2ContainerRegistryFullAccess. Untuk menghindari kesalahan umum di sekitar gambar Anda yang tidak ada atau izinnya salah, pastikan ECR gambar Anda tidak lebih besar dari ruang disk yang dialokasikan pada instance pelatihan. Untuk menghindari hal ini, jalankan pekerjaan pelatihan Anda pada instance yang memiliki ruang disk yang cukup. Selain itu, jika ECR gambar Anda berasal dari repositori Elastic Container Service (ECS) AWS akun lain, dan Anda tidak menyetel izin repositori untuk memberikan akses, ini akan mengakibatkan kesalahan. Lihat izin ECR repositori untuk informasi selengkapnya tentang menyetel pernyataan kebijakan repositori.

Lihat S3DataSourceuntuk informasi selengkapnya tentang menyesuaikan atribut sumber data S3. Akhirnya, untuk memanfaatkan pelatihan multi-instance, data pelatihan harus dipartisi menjadi setidaknya file sebanyak instance.

Untuk inferensi, RCF dukunganapplication/x-recordio-protobuf, text/csv dan jenis konten data application/json input. Lihat Parameter untuk Algoritma Bawaan dokumentasi untuk informasi lebih lanjut. RCFpengembalian inferensi application/x-recordio-protobuf atau output application/json diformat. Setiap catatan dalam data keluaran ini berisi skor anomali yang sesuai untuk setiap titik data input. Lihat Format Data Umum - Inferensi untuk informasi lebih lanjut.

Untuk informasi lebih lanjut tentang format file input dan output, lihat RCFFormat Respons untuk inferensi dan file. RCFContoh Notebook

Rekomendasi Instance untuk RCF Algoritma

Untuk pelatihan, kami merekomendasikanml.m4,ml.c4, dan keluarga ml.c5 contoh. Untuk inferensi, kami merekomendasikan penggunaan jenis ml.c5.xl instans khususnya, untuk kinerja maksimum serta meminimalkan biaya per jam penggunaan. Meskipun algoritme secara teknis dapat berjalan pada jenis GPU instance, ia tidak memanfaatkan GPU perangkat keras.

RCFContoh Notebook

Untuk contoh cara melatih RCF model dan melakukan kesimpulan dengannya, lihat buku catatan An Introduction to SageMaker Random Cut Forests. Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker sampel. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.

Untuk posting blog tentang penggunaan RCF algoritme, lihat Menggunakan algoritma Amazon SageMaker Random Cut Forest bawaan untuk deteksi anomali.