Wawasan IP - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Wawasan IP

Amazon SageMaker IP Insights adalah algoritma pembelajaran tanpa pengawasan yang mempelajari pola penggunaan untuk alamat IPv4. Ini dirancang untuk menangkap asosiasi antara alamat IPv4 dan berbagai entitas, seperti ID pengguna atau nomor akun. Anda dapat menggunakannya untuk mengidentifikasi pengguna yang mencoba masuk ke layanan web dari alamat IP anomali, misalnya. Atau Anda dapat menggunakannya untuk mengidentifikasi akun yang mencoba membuat sumber daya komputasi dari alamat IP yang tidak biasa. Model IP Insight yang terlatih dapat di-host di titik akhir untuk membuat prediksi waktu nyata atau digunakan untuk memproses transformasi batch.

SageMaker Wawasan IP menyerap data historis sebagai pasangan (entitas, Alamat IPv4) dan mempelajari pola penggunaan IP dari setiap entitas. Saat ditanyakan dengan peristiwa (entity, IPv4 Address), model SageMaker IP Insights mengembalikan skor yang menyimpulkan seberapa anomali pola peristiwa tersebut. Misalnya, ketika pengguna mencoba masuk dari alamat IP, jika skor IP Insights cukup tinggi, server login web mungkin memutuskan untuk memicu sistem otentikasi multi-faktor. Dalam solusi yang lebih canggih, Anda dapat memasukkan skor IP Insights ke dalam model pembelajaran mesin lainnya. Misalnya, Anda dapat menggabungkan skor IP Insight dengan fitur lain untuk menentukan peringkat temuan sistem keamanan lain, seperti yang berasal dari Amazon GuardDuty.

Algoritma SageMaker IP Insights juga dapat mempelajari representasi vektor alamat IP, yang dikenal sebagai embeddings. Anda dapat menggunakan embeddings yang disandikan vektor sebagai fitur dalam tugas pembelajaran mesin hilir yang menggunakan informasi yang diamati di alamat IP. Misalnya, Anda dapat menggunakannya dalam tugas-tugas seperti mengukur kesamaan antara alamat IP dalam tugas pengelompokan dan visualisasi.

Antarmuka Input/Output untuk Algoritma Wawasan IP

Pelatihan dan Validasi

Algoritma SageMaker IP Insights mendukung saluran data pelatihan dan validasi. Ini menggunakan saluran validasi opsional untuk menghitung skor area-under-curve (AUC) pada strategi pengambilan sampel negatif yang telah ditentukan. Metrik AUC memvalidasi seberapa baik model membedakan antara sampel positif dan negatif. Jenis konten data pelatihan dan validasi harus dalam text/csv format. Kolom pertama dari data CSV adalah string buram yang menyediakan pengidentifikasi unik untuk entitas. Kolom kedua adalah alamat IPv4 dalam notasi desimal titik. IP Insights saat ini hanya mendukung mode File. Untuk informasi lebih lanjut dan beberapa contoh, lihatFormat Data Pelatihan Wawasan IP.

Inferensi

Untuk inferensi, IP Insights mendukungtext/csv,application/json, dan tipe konten application/jsonlines data. Untuk informasi selengkapnya tentang format data umum untuk inferensi yang disediakan oleh SageMaker, lihatFormat data umum untuk inferensi. Inferensi IP Insights mengembalikan output yang diformat sebagai salah satu atau. application/json application/jsonlines Setiap catatan dalam data keluaran berisi yang sesuai dot_product (atau skor kompatibilitas) untuk setiap titik data input. Untuk informasi lebih lanjut dan beberapa contoh, lihatFormat Data Inferensi Wawasan IP.

Rekomendasi Instans EC2 untuk Algoritma Wawasan IP

Algoritma SageMaker IP Insights dapat berjalan pada instans GPU dan CPU. Untuk pekerjaan pelatihan, sebaiknya gunakan instans GPU. Namun, untuk beban kerja tertentu dengan kumpulan data pelatihan yang besar, instans CPU terdistribusi dapat mengurangi biaya pelatihan. Untuk inferensi, sebaiknya gunakan instance CPU. IP Insights mendukung keluarga GPU P2, P3, G4dn, dan G5.

Instans GPU untuk Algoritma Wawasan IP

IP Insights mendukung semua GPU yang tersedia. Jika Anda perlu mempercepat pelatihan, sebaiknya mulai dengan satu instance GPU, seperti ml.p3.2xlarge, dan kemudian pindah ke lingkungan multi-GPU, seperti ml.p3.8xlarge dan ml.p3.16xlarge. Multi-GPU secara otomatis membagi kumpulan mini data pelatihan di antara mereka sendiri. Jika Anda beralih dari satu GPU ke beberapa GPU, mini_batch_size dibagi rata menjadi jumlah GPU yang digunakan. Anda mungkin ingin meningkatkan nilai mini_batch_size untuk mengkompensasi ini.

Instans CPU untuk Algoritma Wawasan IP

Jenis instance CPU yang kami rekomendasikan sangat bergantung pada memori instans yang tersedia dan ukuran model. Ukuran model ditentukan oleh dua hiperparameter: vector_dim dannum_entity_vectors. Ukuran model maksimum yang didukung adalah 8 GB. Tabel berikut mencantumkan tipe instans EC2 tipikal yang akan Anda terapkan berdasarkan parameter input ini untuk berbagai ukuran model. Pada Tabel 1, nilai untuk vector_dim kolom pertama berkisar dari 32 hingga 2048 dan nilai untuk num_entity_vectors di baris pertama berkisar antara 10.000 hingga 50.000.000.

vector_dim \ num_entity_vectors. 10.000 50.000 100.000 500.000 1.000.000 5.000.000 10.000.000 50.000.000
32

db.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

db.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

db.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

db.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

db.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

db.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

db.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

Nilai untukmini_batch_size,, num_ip_encoder_layersrandom_negative_sampling_rate, dan shuffled_negative_sampling_rate hyperparameters juga mempengaruhi jumlah memori yang dibutuhkan. Jika nilai ini besar, Anda mungkin perlu menggunakan jenis instance yang lebih besar dari biasanya.

Notebook Contoh Wawasan IP

Untuk contoh buku catatan yang menunjukkan cara melatih algoritma SageMaker IP Insights dan melakukan inferensi dengannya, lihat Pengantar Algoritma Wawasan SageMaker IP. Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah membuat instance notebook, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker contoh. Untuk membuka buku catatan, pilih tab Use dan pilih Create copy.