Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Inferensi real-time latensi rendah dengan AWS PrivateLink
Amazon SageMaker AI memberikan latensi rendah untuk inferensi waktu nyata sambil mempertahankan ketersediaan dan ketahanan tinggi menggunakan penerapan multi-AZ. Latensi aplikasi terdiri dari dua komponen utama: infrastruktur atau latensi overhead dan latensi inferensi model. Pengurangan latensi overhead membuka kemungkinan baru seperti menerapkan model yang lebih kompleks, mendalam, dan akurat atau membagi aplikasi monolitik menjadi modul layanan mikro yang dapat diskalakan dan dapat dipelihara. Anda dapat mengurangi latensi untuk inferensi real-time dengan SageMaker AI menggunakan penerapan. AWS PrivateLink Dengan AWS PrivateLink, Anda dapat mengakses semua operasi SageMaker API secara pribadi dari Virtual Private Cloud (VPC) Anda dengan cara yang dapat diskalakan dengan menggunakan titik akhir VPC antarmuka. Endpoint VPC antarmuka adalah elastic network interface di subnet Anda dengan alamat IP pribadi yang berfungsi sebagai titik masuk untuk semua panggilan API. SageMaker
Secara default, titik akhir SageMaker AI dengan 2 instans atau lebih diterapkan di setidaknya 2 AWS Availability Zones (AZs) dan instance di AZ mana pun dapat memproses pemanggilan. Ini menghasilkan satu atau lebih “hop” AZ yang berkontribusi pada latensi overhead. AWS PrivateLink Penerapan dengan privateDNSEnabled
opsi yang ditetapkan sebagai true
meringankan hal ini dengan mencapai dua tujuan:
-
Itu menyimpan semua lalu lintas inferensi dalam VPC Anda.
-
Itu membuat lalu lintas pemanggilan di AZ yang sama dengan klien yang memulainya saat menggunakan Runtime. SageMaker Ini menghindari “lompatan” antara AZs mengurangi latensi overhead.
Bagian berikut dari panduan ini menunjukkan bagaimana Anda dapat mengurangi latensi untuk inferensi waktu nyata dengan AWS PrivateLink penerapan.
Topik
Menyebarkan AWS PrivateLink
Untuk menerapkan AWS PrivateLink, pertama-tama buat titik akhir antarmuka untuk VPC tempat Anda terhubung ke titik akhir AI. SageMaker Ikuti langkah-langkah di Akses AWS layanan menggunakan titik akhir VPC antarmuka untuk membuat titik akhir antarmuka. Saat membuat titik akhir, pilih pengaturan berikut di antarmuka konsol:
-
Pilih kotak centang Aktifkan nama DNS di bawah Pengaturan Tambahan
-
Pilih grup keamanan yang sesuai dan subnet yang akan digunakan dengan titik akhir SageMaker AI.
Pastikan juga bahwa VPC mengaktifkan nama host DNS. Untuk informasi selengkapnya tentang cara mengubah atribut DNS untuk VPC Anda, lihat Melihat dan memperbarui atribut DNS untuk VPC Anda.
Menerapkan titik akhir SageMaker AI di VPC
Untuk mencapai latensi overhead rendah, buat titik akhir SageMaker AI menggunakan subnet yang sama dengan yang Anda tentukan saat menerapkan. AWS PrivateLink Subnet ini harus sesuai dengan aplikasi klien Anda, seperti yang ditunjukkan dalam cuplikan kode berikut. AZs
model_name =
'<the-name-of-your-model>'
vpc ='vpc-0123456789abcdef0'
subnet_a ='subnet-0123456789abcdef0'
subnet_b ='subnet-0123456789abcdef1'
security_group ='sg-0123456789abcdef0'
create_model_response = sagemaker_client.create_model( ModelName = model_name, ExecutionRoleArn = sagemaker_role, PrimaryContainer = { 'Image': container, 'ModelDataUrl': model_url }, VpcConfig = { 'SecurityGroupIds': [security_group], 'Subnets': [subnet_a, subnet_b], }, )
Cuplikan kode yang disebutkan di atas mengasumsikan bahwa Anda telah mengikuti langkah-langkahnya. Sebelum Anda mulai
Memanggil titik akhir SageMaker AI
Terakhir, tentukan klien SageMaker Runtime dan panggil titik akhir SageMaker AI seperti yang ditunjukkan pada cuplikan kode berikut.
endpoint_name =
'<endpoint-name>'
runtime_client = boto3.client('sagemaker-runtime') response = runtime_client.invoke_endpoint(EndpointName=endpoint_name, ContentType='text/csv', Body=payload)
Untuk informasi selengkapnya tentang konfigurasi titik akhir, lihatTerapkan model untuk inferensi waktu nyata.