

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Algoritma Random Cut Forest (RCF)
<a name="randomcutforest"></a>

Amazon SageMaker AI Random Cut Forest (RCF) adalah algoritma tanpa pengawasan untuk mendeteksi titik data anomali dalam kumpulan data. Ini adalah pengamatan yang menyimpang dari data yang terstruktur atau berpola dengan baik. Anomali dapat bermanifestasi sebagai lonjakan tak terduga dalam data deret waktu, jeda periodisitas, atau titik data yang tidak dapat diklasifikasikan. Mereka mudah dijelaskan dalam hal itu, ketika dilihat dalam plot, mereka sering mudah dibedakan dari data “biasa”. Memasukkan anomali ini dalam kumpulan data dapat secara drastis meningkatkan kompleksitas tugas pembelajaran mesin karena data “reguler” sering dapat dijelaskan dengan model sederhana.

Dengan setiap titik data, RCF mengaitkan skor anomali. Nilai skor rendah menunjukkan bahwa titik data dianggap “normal.” Nilai tinggi menunjukkan adanya anomali dalam data. Definisi “rendah” dan “tinggi” tergantung pada aplikasi tetapi praktik umum menunjukkan bahwa skor di luar tiga standar deviasi dari skor rata-rata dianggap anomali.

Meskipun ada banyak aplikasi algoritma deteksi anomali untuk data deret waktu satu dimensi seperti analisis volume lalu lintas atau deteksi lonjakan volume suara, RCF dirancang untuk bekerja dengan input dimensi sewenang-wenang. Amazon SageMaker AI RCF menskalakan dengan baik sehubungan dengan jumlah fitur, ukuran kumpulan data, dan jumlah instance.

**Topics**
+ [Antarmuka Input/Output untuk Algoritma RCF](#rcf-input_output)
+ [Rekomendasi Instance untuk Algoritma RCF](#rcf-instance-recommend)
+ [Contoh Notebook RCF](#rcf-sample-notebooks)
+ [Bagaimana RCF Bekerja](rcf_how-it-works.md)
+ [Hiperparameter RCF](rcf_hyperparameters.md)
+ [Menyetel Model RCF](random-cut-forest-tuning.md)
+ [Format Respons RCF](rcf-in-formats.md)

## Antarmuka Input/Output untuk Algoritma RCF
<a name="rcf-input_output"></a>

Amazon SageMaker AI Random Cut Forest mendukung `train` dan saluran `test` data. Saluran uji opsional digunakan untuk menghitung metrik akurasi, presisi, penarikan, dan skor F1 pada data berlabel. Melatih dan menguji jenis konten data dapat berupa salah satu `application/x-recordio-protobuf` atau `text/csv` format. Untuk data pengujian, saat menggunakan text/csv format, konten harus ditentukan sebagai teks/csv; label\$1size=1 di mana kolom pertama dari setiap baris mewakili label anomali: “1" untuk titik data anomali dan “0" untuk titik data normal. Anda dapat menggunakan mode File atau mode Pipa untuk melatih model RCF pada data yang diformat sebagai atau sebagai `recordIO-wrapped-protobuf` `CSV`

Saluran kereta hanya mendukung `S3DataDistributionType=ShardedByS3Key` dan saluran uji hanya mendukung`S3DataDistributionType=FullyReplicated`. Contoh berikut menentukan jenis distribusi S3 untuk saluran kereta menggunakan Amazon [Python SageMaker ](https://sagemaker.readthedocs.io/en/stable/v2.html) SDK.

**catatan**  
`sagemaker.inputs.s3_input`Metode ini diubah namanya menjadi [SageMaker Python `sagemaker.inputs.TrainingInput`](https://sagemaker.readthedocs.io/en/stable/v2.html#s3-input) SDK v2.

```
  import sagemaker
    
  # specify Random Cut Forest training job information and hyperparameters
  rcf = sagemaker.estimator.Estimator(...)
    
  # explicitly specify "ShardedByS3Key" distribution type
  train_data = sagemaker.inputs.TrainingInput(
       s3_data=s3_training_data_location,
       content_type='text/csv;label_size=0',
       distribution='ShardedByS3Key')
    
  # run the training job on input data stored in S3
  rcf.fit({'train': train_data})
```

Untuk menghindari kesalahan umum seputar peran eksekusi, pastikan bahwa Anda memiliki peran eksekusi yang diperlukan, `AmazonSageMakerFullAccess` dan`AmazonEC2ContainerRegistryFullAccess`. Untuk menghindari kesalahan umum di sekitar gambar Anda yang tidak ada atau izinnya salah, pastikan bahwa gambar ECR Anda tidak lebih besar daripada ruang disk yang dialokasikan pada instance pelatihan. Untuk menghindari hal ini, jalankan pekerjaan pelatihan Anda pada instance yang memiliki ruang disk yang cukup. Selain itu, jika gambar ECR Anda berasal dari repositori Elastic Container Service (ECS) AWS akun lain, dan Anda tidak menyetel izin repositori untuk memberikan akses, ini akan mengakibatkan kesalahan. Lihat [izin repositori ECR untuk informasi selengkapnya](https://docs.aws.amazon.com/AmazonECR/latest/userguide/set-repository-policy.html) tentang pengaturan pernyataan kebijakan repositori.

Lihat [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html)untuk informasi selengkapnya tentang menyesuaikan atribut sumber data S3. Akhirnya, untuk memanfaatkan pelatihan multi-instance, data pelatihan harus dipartisi menjadi setidaknya file sebanyak instance.

Untuk inferensi, RCF mendukung`application/x-recordio-protobuf`, `text/csv` dan jenis konten data `application/json` input. Lihat [Parameter untuk Algoritma Bawaan](common-info-all-im-models.md) dokumentasi untuk informasi lebih lanjut. Inferensi RCF mengembalikan `application/x-recordio-protobuf` atau `application/json` output diformat. Setiap catatan dalam data keluaran ini berisi skor anomali yang sesuai untuk setiap titik data input. Lihat [Format Data Umum - Inferensi](https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-inference.html) untuk informasi lebih lanjut.

Untuk informasi lebih lanjut tentang format file input dan output, lihat [Format Respons RCF](rcf-in-formats.md) untuk inferensi dan file. [Contoh Notebook RCF](#rcf-sample-notebooks)

## Rekomendasi Instance untuk Algoritma RCF
<a name="rcf-instance-recommend"></a>

Untuk pelatihan, kami merekomendasikan`ml.m4`,`ml.c4`, dan keluarga `ml.c5` contoh. Untuk inferensi, kami merekomendasikan penggunaan jenis `ml.c5.xl` instans khususnya, untuk kinerja maksimum serta meminimalkan biaya per jam penggunaan. Meskipun algoritme secara teknis dapat berjalan pada jenis instance GPU, ia tidak memanfaatkan perangkat keras GPU.

## Contoh Notebook RCF
<a name="rcf-sample-notebooks"></a>

Untuk contoh cara melatih model RCF dan melakukan kesimpulan dengannya, lihat buku catatan [An Introduction to SageMaker AI Random Cut](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/random_cut_forest/random_cut_forest.html) Forests. Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh di SageMaker AI, lihat. [Instans SageMaker notebook Amazon](nbi.md) Setelah Anda membuat instance notebook dan membukanya, pilih tab **Contoh SageMaker AI** untuk melihat daftar semua sampel SageMaker AI. Untuk membuka buku catatan, klik tab **Use** dan pilih **Create copy**.

Untuk posting blog tentang penggunaan algoritma RCF, lihat [Menggunakan algoritma Amazon SageMaker AI Random Cut Forest bawaan untuk deteksi anomali](https://aws.amazon.com/blogs/machine-learning/use-the-built-in-amazon-sagemaker-random-cut-forest-algorithm-for-anomaly-detection/).