Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon SageMaker AI Random Cut Forest (RCF) adalah algoritma tanpa pengawasan untuk mendeteksi titik data anomali dalam kumpulan data. Ini adalah pengamatan yang menyimpang dari data yang terstruktur atau berpola dengan baik. Anomali dapat bermanifestasi sebagai lonjakan tak terduga dalam data deret waktu, jeda periodisitas, atau titik data yang tidak dapat diklasifikasikan. Mereka mudah dijelaskan dalam hal itu, ketika dilihat dalam plot, mereka sering mudah dibedakan dari data “biasa”. Memasukkan anomali ini dalam kumpulan data dapat secara drastis meningkatkan kompleksitas tugas pembelajaran mesin karena data “reguler” sering dapat dijelaskan dengan model sederhana.
Dengan setiap titik data, RCF mengaitkan skor anomali. Nilai skor rendah menunjukkan bahwa titik data dianggap “normal.” Nilai tinggi menunjukkan adanya anomali dalam data. Definisi “rendah” dan “tinggi” tergantung pada aplikasi tetapi praktik umum menunjukkan bahwa skor di luar tiga standar deviasi dari skor rata-rata dianggap anomali.
Meskipun ada banyak aplikasi algoritma deteksi anomali untuk data deret waktu satu dimensi seperti analisis volume lalu lintas atau deteksi lonjakan volume suara, RCF dirancang untuk bekerja dengan input dimensi sewenang-wenang. Amazon SageMaker AI RCF menskalakan dengan baik sehubungan dengan jumlah fitur, ukuran kumpulan data, dan jumlah instance.
Topik
Antarmuka Input/Output untuk Algoritma RCF
Amazon SageMaker AI Random Cut Forest mendukung train
dan saluran test
data. Saluran uji opsional digunakan untuk menghitung metrik akurasi, presisi, penarikan, dan skor F1 pada data berlabel. Melatih dan menguji jenis konten data dapat berupa salah satu application/x-recordio-protobuf
atau text/csv
format. Untuk data uji, saat menggunakantext/csv format, the content must be specified as
text/csv; label_size=1 di mana kolom pertama setiap baris mewakili label anomali: “1" untuk titik data anomali dan “0" untuk titik data normal. Anda dapat menggunakan mode File atau mode Pipa untuk melatih model RCF pada data yang diformat sebagai atau sebagai recordIO-wrapped-protobuf
CSV
Saluran kereta hanya mendukung S3DataDistributionType=ShardedByS3Key
dan saluran uji hanya mendukungS3DataDistributionType=FullyReplicated
. Contoh berikut menentukan jenis distribusi S3 untuk saluran kereta menggunakan Amazon Python SageMaker
catatan
sagemaker.inputs.s3_input
Metode ini diubah namanya menjadi SageMaker Python sagemaker.inputs.TrainingInput
import sagemaker
# specify Random Cut Forest training job information and hyperparameters
rcf = sagemaker.estimator.Estimator(...)
# explicitly specify "ShardedByS3Key" distribution type
train_data = sagemaker.inputs.TrainingInput(
s3_data=s3_training_data_location,
content_type='text/csv;label_size=0',
distribution='ShardedByS3Key')
# run the training job on input data stored in S3
rcf.fit({'train': train_data})
Untuk menghindari kesalahan umum seputar peran eksekusi, pastikan bahwa Anda memiliki peran eksekusi yang diperlukan, AmazonSageMakerFullAccess
danAmazonEC2ContainerRegistryFullAccess
. Untuk menghindari kesalahan umum di sekitar gambar Anda yang tidak ada atau izinnya salah, pastikan bahwa gambar ECR Anda tidak lebih besar daripada ruang disk yang dialokasikan pada instance pelatihan. Untuk menghindari hal ini, jalankan pekerjaan pelatihan Anda pada instance yang memiliki ruang disk yang cukup. Selain itu, jika gambar ECR Anda berasal dari repositori Elastic Container Service (ECS) AWS akun lain, dan Anda tidak menyetel izin repositori untuk memberikan akses, ini akan mengakibatkan kesalahan. Lihat izin repositori ECR untuk informasi selengkapnya tentang pengaturan pernyataan kebijakan repositori.
Lihat S3DataSource
untuk informasi selengkapnya tentang menyesuaikan atribut sumber data S3. Akhirnya, untuk memanfaatkan pelatihan multi-instance, data pelatihan harus dipartisi menjadi setidaknya file sebanyak instance.
Untuk inferensi, RCF mendukungapplication/x-recordio-protobuf
, text/csv
dan jenis konten data application/json
input. Lihat Parameter untuk Algoritma Bawaan dokumentasi untuk informasi lebih lanjut. Inferensi RCF mengembalikan application/x-recordio-protobuf
atau application/json
output diformat. Setiap catatan dalam data keluaran ini berisi skor anomali yang sesuai untuk setiap titik data input. Lihat Format Data Umum - Inferensi untuk informasi lebih lanjut.
Untuk informasi lebih lanjut tentang format file input dan output, lihat Format Respons RCF untuk inferensi dan file. Contoh Notebook RCF
Rekomendasi Instance untuk Algoritma RCF
Untuk pelatihan, kami merekomendasikanml.m4
,ml.c4
, dan keluarga ml.c5
contoh. Untuk inferensi, kami merekomendasikan penggunaan jenis ml.c5.xl
instans khususnya, untuk kinerja maksimum serta meminimalkan biaya per jam penggunaan. Meskipun algoritme secara teknis dapat berjalan pada jenis instance GPU, ia tidak memanfaatkan perangkat keras GPU.
Contoh Notebook RCF
Untuk contoh cara melatih model RCF dan melakukan kesimpulan dengannya, lihat buku catatan An Introduction to SageMaker AI Random Cut
Untuk posting blog tentang penggunaan algoritma RCF, lihat Menggunakan algoritma Amazon SageMaker AI Random Cut Forest bawaan untuk deteksi anomali