Algoritma K-Means - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Algoritma K-Means

K-Means adalah algoritma pembelajaran tanpa pengawasan. Ini mencoba untuk menemukan pengelompokan diskrit dalam data, di mana anggota kelompok semirip mungkin satu sama lain dan berbeda mungkin dari anggota kelompok lain. Anda menentukan atribut yang Anda inginkan algoritma untuk digunakan untuk menentukan kesamaan.

Amazon SageMaker menggunakan versi modifikasi dari algoritma pengelompokan k-means skala web. Dibandingkan dengan versi asli algoritme, versi yang digunakan oleh Amazon SageMaker lebih akurat. Seperti algoritme asli, algoritme ini menskalakan ke kumpulan data besar dan memberikan peningkatan dalam waktu pelatihan. Untuk melakukan ini, versi yang digunakan oleh Amazon SageMaker mengalirkan mini-batch (subset kecil dan acak) dari data pelatihan. Untuk informasi selengkapnya tentang mini-batch k-means, lihat Pengelompokan k-means skala Web.

Algoritma k-mean mengharapkan data tabular, di mana baris mewakili pengamatan yang ingin Anda kelompokkan, dan kolom mewakili atribut pengamatan. Atribut n di setiap baris mewakili titik dalam ruang n -dimensi. Jarak Euclidean antara titik-titik ini mewakili kesamaan pengamatan yang sesuai. Algoritma mengelompokkan pengamatan dengan nilai atribut yang serupa (titik-titik yang sesuai dengan pengamatan ini lebih dekat satu sama lain). Untuk informasi selengkapnya tentang cara kerja k-means di Amazon SageMaker, lihatBagaimana K-Means Clustering Bekerja.

Antarmuka Input/Output untuk Algoritma K-Means

Untuk pelatihan, algoritma k-means mengharapkan data disediakan di saluran kereta (disarankanS3DataDistributionType=ShardedByS3Key), dengan saluran uji opsional (disarankanS3DataDistributionType=FullyReplicated) untuk menilai data. Keduanya recordIO-wrapped-protobuf dan CSV format didukung untuk pelatihan. Anda dapat menggunakan mode File atau mode Pipa untuk melatih model pada data yang diformat sebagai recordIO-wrapped-protobuf atau sebagaiCSV.

Untuk inferensi,text/csv,application/json, dan application/x-recordio-protobuf didukung. k-means mengembalikan closest_cluster label dan distance_to_cluster untuk setiap pengamatan.

Untuk informasi lebih lanjut tentang format file input dan output, lihat Format Respons K-Means untuk inferensi dan file. Notebook Contoh K-Means Algoritma k-means tidak mendukung pembelajaran instance ganda, di mana set pelatihan terdiri dari “tas” berlabel, yang masing-masing merupakan kumpulan instance yang tidak berlabel.

Rekomendasi Instans EC2 untuk Algoritma K-Means

Kami merekomendasikan pelatihan k-means pada instance CPU. Anda dapat melatih instans GPU, tetapi harus membatasi pelatihan GPU ke instans GPU tunggal (seperti ml.g4dn.xlarge) karena hanya satu GPU yang digunakan per instance. Algoritma k-means mendukung instance P2, P3, G4dn, dan G5 untuk pelatihan dan inferensi.

Notebook Contoh K-Means

Untuk contoh buku catatan yang menggunakan algoritma SageMaker K-mean untuk mengelompokkan populasi kabupaten di Amerika Serikat berdasarkan atribut yang diidentifikasi menggunakan analisis komponen prinsip, lihat Menganalisis data sensus AS untuk segmentasi populasi menggunakan Amazon. SageMaker Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMakerContoh untuk melihat daftar semua SageMaker sampel. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.