Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Analisis Komponen Utama (PCA) Algoritma
PCAadalah algoritma pembelajaran mesin tanpa pengawasan yang mencoba mengurangi dimensi (jumlah fitur) dalam kumpulan data sambil tetap mempertahankan informasi sebanyak mungkin. Ini dilakukan dengan menemukan serangkaian fitur baru yang disebut komponen, yang merupakan komposit dari fitur asli yang tidak berkorelasi satu sama lain. Mereka juga dibatasi sehingga komponen pertama menyumbang variabilitas terbesar yang mungkin dalam data, komponen kedua adalah variabilitas terbanyak kedua, dan seterusnya.
Di Amazon SageMaker, PCA beroperasi dalam dua mode, tergantung pada skenario:
-
reguler: Untuk kumpulan data dengan data yang jarang dan jumlah pengamatan dan fitur yang moderat.
-
acak: Untuk kumpulan data dengan sejumlah besar pengamatan dan fitur. Mode ini menggunakan algoritma aproksimasi.
PCAmenggunakan data tabular.
Baris mewakili pengamatan yang ingin Anda tanamkan di ruang dimensi yang lebih rendah. Kolom mewakili fitur yang ingin Anda temukan perkiraan yang dikurangi. Algoritma menghitung matriks kovarians (atau perkiraannya secara terdistribusi), dan kemudian melakukan dekomposisi nilai tunggal pada ringkasan ini untuk menghasilkan komponen utama.
Topik
Antarmuka Input/Output untuk Algoritma PCA
Untuk pelatihan, PCA mengharapkan data yang disediakan di saluran kereta api, dan secara opsional mendukung kumpulan data yang diteruskan ke kumpulan data pengujian, yang dinilai oleh algoritme akhir. Keduanya recordIO-wrapped-protobuf
dan CSV
format didukung untuk pelatihan. Anda dapat menggunakan mode File atau mode Pipa untuk melatih model pada data yang diformat sebagai recordIO-wrapped-protobuf
atau sebagaiCSV
.
Untuk inferensi, PCA dukungantext/csv
,application/json
, danapplication/x-recordio-protobuf
. Hasil dikembalikan dalam salah satu application/json
atau application/x-recordio-protobuf
format dengan vektor “proyeksi.”
Untuk informasi lebih lanjut tentang format file input dan output, lihat PCAFormat Respons untuk inferensi dan file. PCAContoh Notebook
EC2Rekomendasi Instance untuk PCA Algoritma
PCAdukungan CPU dan GPU contoh untuk pelatihan dan inferensi. Jenis instance mana yang paling berkinerja sangat bergantung pada spesifikasi data input. Untuk GPU contoh, PCA mendukung P2, P3, G4dn, dan G5.
PCAContoh Notebook
Untuk contoh buku catatan yang menunjukkan cara menggunakan algoritma Analisis Komponen SageMaker Utama untuk menganalisis gambar digit tulisan tangan dari nol hingga sembilan dalam MNIST kumpulan data, lihat Pengantar dengan