Algoritma K-Means

Mode fokus

Algoritma K-Means - Amazon SageMaker AI

Antarmuka Input/Output untuk Algoritma K-Means EC2 Rekomendasi Instance untuk Algoritma K-Means Contoh Notebook

K-Means adalah algoritma pembelajaran tanpa pengawasan. Ini mencoba untuk menemukan pengelompokan diskrit dalam data, di mana anggota kelompok semirip mungkin satu sama lain dan berbeda mungkin dari anggota kelompok lain. Anda menentukan atribut yang Anda inginkan algoritma untuk digunakan untuk menentukan kesamaan.

Amazon SageMaker AI menggunakan versi modifikasi dari algoritma pengelompokan k-means skala web. Dibandingkan dengan versi asli algoritme, versi yang digunakan oleh Amazon SageMaker AI lebih akurat. Seperti algoritme asli, algoritme ini menskalakan ke kumpulan data besar dan memberikan peningkatan dalam waktu pelatihan. Untuk melakukan ini, versi yang digunakan oleh Amazon SageMaker AI mengalirkan mini-batch (subset kecil dan acak) dari data pelatihan. Untuk informasi selengkapnya tentang mini-batch k-means, lihat Pengelompokan k-means skala Web.

Algoritma k-mean mengharapkan data tabular, di mana baris mewakili pengamatan yang ingin Anda kelompokkan, dan kolom mewakili atribut pengamatan. Atribut n di setiap baris mewakili titik dalam ruang n -dimensi. Jarak Euclidean antara titik-titik ini mewakili kesamaan pengamatan yang sesuai. Algoritma mengelompokkan pengamatan dengan nilai atribut yang serupa (titik-titik yang sesuai dengan pengamatan ini lebih dekat satu sama lain). Untuk informasi selengkapnya tentang cara kerja k-means di Amazon SageMaker AI, lihatBagaimana K-Means Clustering Bekerja.

Topik

Antarmuka Input/Output untuk Algoritma K-Means

Untuk pelatihan, algoritma k-means mengharapkan data disediakan di saluran kereta (disarankanS3DataDistributionType=ShardedByS3Key), dengan saluran uji opsional (disarankanS3DataDistributionType=FullyReplicated) untuk menilai data. Keduanya recordIO-wrapped-protobuf dan CSV format didukung untuk pelatihan. Anda dapat menggunakan mode File atau mode Pipa untuk melatih model pada data yang diformat sebagai recordIO-wrapped-protobuf atau sebagaiCSV.

Untuk inferensi,text/csv,application/json, dan application/x-recordio-protobuf didukung. k-means mengembalikan closest_cluster label dan distance_to_cluster untuk setiap pengamatan.

Untuk informasi lebih lanjut tentang format file input dan output, lihat Format Respons K-Means untuk inferensi dan file. Notebook Contoh K-Means Algoritma k-means tidak mendukung pembelajaran instance ganda, di mana set pelatihan terdiri dari “tas” berlabel, yang masing-masing merupakan kumpulan instance yang tidak berlabel.

EC2 Rekomendasi Instance untuk Algoritma K-Means

Kami merekomendasikan pelatihan k-means pada instance CPU. Anda dapat melatih instans GPU, tetapi harus membatasi pelatihan GPU ke instans GPU tunggal (seperti ml.g4dn.xlarge) karena hanya satu GPU yang digunakan per instance. Algoritma k-means mendukung instance P2, P3, G4dn, dan G5 untuk pelatihan dan inferensi.

Notebook Contoh K-Means

Untuk contoh notebook yang menggunakan algoritma SageMaker AI K-means untuk mengelompokkan populasi kabupaten di Amerika Serikat berdasarkan atribut yang diidentifikasi menggunakan analisis komponen prinsip, lihat Menganalisis data sensus AS untuk segmentasi populasi menggunakan Amazon AI. SageMaker Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh di SageMaker AI, lihat. Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab Contoh SageMaker AI untuk melihat daftar semua sampel SageMaker AI. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Inferensi

Cara Kerjanya

Topik berikutnya:

Cara Kerjanya

Topik sebelumnya:

Inferensi

Perlu bantuan?

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie