Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Algoritma Random Cut Forest (RCF)
Amazon SageMaker Random Cut Forest (RCF) adalah algoritma tanpa pengawasan untuk mendeteksi titik data anomali dalam kumpulan data. Ini adalah pengamatan yang menyimpang dari data yang terstruktur atau berpola dengan baik. Anomali dapat bermanifestasi sebagai lonjakan tak terduga dalam data deret waktu, jeda periodisitas, atau titik data yang tidak dapat diklasifikasikan. Mereka mudah dijelaskan dalam hal itu, ketika dilihat dalam plot, mereka sering mudah dibedakan dari data “biasa”. Memasukkan anomali ini dalam kumpulan data dapat secara drastis meningkatkan kompleksitas tugas pembelajaran mesin karena data “reguler” sering dapat dijelaskan dengan model sederhana.
Dengan setiap titik data, RCF mengaitkan skor anomali. Nilai skor rendah menunjukkan bahwa titik data dianggap “normal.” Nilai tinggi menunjukkan adanya anomali dalam data. Definisi “rendah” dan “tinggi” tergantung pada aplikasi tetapi praktik umum menunjukkan bahwa skor di luar tiga standar deviasi dari skor rata-rata dianggap anomali.
Meskipun ada banyak aplikasi algoritma deteksi anomali untuk data deret waktu satu dimensi seperti analisis volume lalu lintas atau deteksi lonjakan volume suara, RCF dirancang untuk bekerja dengan input dimensi sewenang-wenang. Amazon SageMaker RCF menskalakan dengan baik sehubungan dengan jumlah fitur, ukuran kumpulan data, dan jumlah instans.
Topik
Antarmuka Input/Output untuk Algoritma RCF
Amazon SageMaker Random Cut Forest mendukung train
dan saluran test
data. Saluran uji opsional digunakan untuk menghitung metrik akurasi, presisi, penarikan, dan skor F1 pada data berlabel. Melatih dan menguji jenis konten data dapat berupa salah satu application/x-recordio-protobuf
atau text/csv
format. Untuk data pengujian, saat menggunakan format teks/csv, konten harus ditentukan sebagai teks/csv; label_size=1 di mana kolom pertama dari setiap baris mewakili label anomali: “1" untuk titik data anomali dan “0" untuk titik data normal. Anda dapat menggunakan mode File atau mode Pipa untuk melatih RCF model pada data yang diformat sebagai recordIO-wrapped-protobuf
atau sebagai CSV
Saluran kereta hanya mendukung S3DataDistributionType=ShardedByS3Key
dan saluran uji hanya mendukungS3DataDistributionType=FullyReplicated
. Contoh berikut menentukan jenis distribusi S3 untuk saluran kereta menggunakan Amazon Python SageMaker
catatan
sagemaker.inputs.s3_input
Metode ini diubah namanya menjadi sagemaker.inputs.TrainingInput
di SageMaker SDKPython v2
import sagemaker # specify Random Cut Forest training job information and hyperparameters rcf = sagemaker.estimator.Estimator(...) # explicitly specify "ShardedByS3Key" distribution type train_data = sagemaker.inputs.TrainingInput( s3_data=s3_training_data_location, content_type='text/csv;label_size=0', distribution='ShardedByS3Key') # run the training job on input data stored in S3 rcf.fit({'train': train_data})
Untuk menghindari kesalahan umum seputar peran eksekusi, pastikan bahwa Anda memiliki peran eksekusi yang diperlukan, AmazonSageMakerFullAccess
danAmazonEC2ContainerRegistryFullAccess
. Untuk menghindari kesalahan umum di sekitar gambar Anda yang tidak ada atau izinnya salah, pastikan ECR gambar Anda tidak lebih besar dari ruang disk yang dialokasikan pada instance pelatihan. Untuk menghindari hal ini, jalankan pekerjaan pelatihan Anda pada instance yang memiliki ruang disk yang cukup. Selain itu, jika ECR gambar Anda berasal dari repositori Elastic Container Service (ECS) AWS akun lain, dan Anda tidak menyetel izin repositori untuk memberikan akses, ini akan mengakibatkan kesalahan. Lihat izin ECR repositori untuk informasi selengkapnya tentang menyetel pernyataan kebijakan repositori.
Lihat S3DataSource
untuk informasi selengkapnya tentang menyesuaikan atribut sumber data S3. Akhirnya, untuk memanfaatkan pelatihan multi-instance, data pelatihan harus dipartisi menjadi setidaknya file sebanyak instance.
Untuk inferensi, RCF dukunganapplication/x-recordio-protobuf
, text/csv
dan jenis konten data application/json
input. Lihat Parameter untuk Algoritma Bawaan dokumentasi untuk informasi lebih lanjut. RCFpengembalian inferensi application/x-recordio-protobuf
atau output application/json
diformat. Setiap catatan dalam data keluaran ini berisi skor anomali yang sesuai untuk setiap titik data input. Lihat Format Data Umum - Inferensi untuk informasi lebih lanjut.
Untuk informasi lebih lanjut tentang format file input dan output, lihat RCFFormat Respons untuk inferensi dan file. RCFContoh Notebook
Rekomendasi Instance untuk RCF Algoritma
Untuk pelatihan, kami merekomendasikanml.m4
,ml.c4
, dan keluarga ml.c5
contoh. Untuk inferensi, kami merekomendasikan penggunaan jenis ml.c5.xl
instans khususnya, untuk kinerja maksimum serta meminimalkan biaya per jam penggunaan. Meskipun algoritme secara teknis dapat berjalan pada jenis GPU instance, ia tidak memanfaatkan GPU perangkat keras.
RCFContoh Notebook
Untuk contoh cara melatih RCF model dan melakukan kesimpulan dengannya, lihat buku catatan An Introduction to SageMaker Random Cut Forests
Untuk posting blog tentang penggunaan RCF algoritme, lihat Menggunakan algoritma Amazon SageMaker Random Cut Forest bawaan untuk deteksi anomali