Inferensi real-time latensi rendah dengan AWS PrivateLink - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Inferensi real-time latensi rendah dengan AWS PrivateLink

Amazon SageMaker menyediakan latensi rendah untuk inferensi waktu nyata sambil mempertahankan ketersediaan dan ketahanan tinggi menggunakan penerapan Multi-AZ. Latensi aplikasi terdiri dari dua komponen utama: infrastruktur atau latensi overhead dan latensi inferensi model. Pengurangan latensi overhead membuka kemungkinan baru seperti menerapkan model yang lebih kompleks, mendalam, dan akurat atau membagi aplikasi monolitik menjadi modul layanan mikro yang dapat diskalakan dan dapat dipelihara. Anda dapat mengurangi latensi untuk inferensi waktu nyata dengan menggunakan SageMaker AWS PrivateLink penyebaran. Dengan AWS PrivateLink, Anda dapat mengakses semua SageMaker API operasi secara pribadi dari Virtual Private Cloud (VPC) Anda dengan cara yang dapat diskalakan dengan menggunakan titik akhir antarmukaVPC. VPCEndpoint antarmuka adalah elastic network interface di subnet Anda dengan alamat IP pribadi yang berfungsi sebagai titik masuk untuk semua SageMaker API panggilan.

Secara default, SageMaker titik akhir dengan 2 instans atau lebih diterapkan di setidaknya 2 AWS Availability Zones (AZs) dan instance di AZ apa pun dapat memproses pemanggilan. Ini menghasilkan satu atau lebih “hop” AZ yang berkontribusi pada latensi overhead. Sesi AWS PrivateLink penyebaran dengan privateDNSEnabled opsi yang ditetapkan sebagai true meringankan ini dengan mencapai dua tujuan:

  • Itu membuat semua lalu lintas inferensi dalam AndaVPC.

  • Itu membuat lalu lintas pemanggilan di AZ yang sama dengan klien yang memulainya saat menggunakan Runtime. SageMaker Ini menghindari “lompatan” antara AZs mengurangi latensi overhead.

Bagian berikut dari panduan ini menunjukkan bagaimana Anda dapat mengurangi latensi untuk kesimpulan waktu nyata dengan AWS PrivateLink penyebaran.

Untuk menyebarkan AWS PrivateLink, pertama buat titik akhir antarmuka untuk VPC dari mana Anda terhubung ke titik SageMaker akhir. Silakan ikuti langkah-langkah di Access an AWS layanan menggunakan VPC titik akhir antarmuka untuk membuat titik akhir antarmuka. Saat membuat titik akhir, pilih pengaturan berikut di antarmuka konsol:

  • Pilih kotak centang Aktifkan DNS nama di bawah Pengaturan Tambahan

  • Pilih grup keamanan yang sesuai dan subnet yang akan digunakan dengan titik SageMaker akhir.

Pastikan juga bahwa DNS nama host VPC telah dihidupkan. Untuk informasi selengkapnya tentang cara mengubah DNS atribut untuk AndaVPC, lihat Melihat dan memperbarui DNS atribut untuk Anda VPC.

Terapkan SageMaker titik akhir di a VPC

Untuk mencapai latensi overhead rendah, buat SageMaker titik akhir menggunakan subnet yang sama dengan yang Anda tentukan saat menerapkan AWS PrivateLink. Subnet ini harus sesuai dengan aplikasi klien Anda, seperti yang ditunjukkan dalam cuplikan kode berikut. AZs

model_name = '<the-name-of-your-model>' vpc = 'vpc-0123456789abcdef0' subnet_a = 'subnet-0123456789abcdef0' subnet_b = 'subnet-0123456789abcdef1' security_group = 'sg-0123456789abcdef0' create_model_response = sagemaker_client.create_model( ModelName = model_name, ExecutionRoleArn = sagemaker_role, PrimaryContainer = { 'Image': container, 'ModelDataUrl': model_url }, VpcConfig = { 'SecurityGroupIds': [security_group], 'Subnets': [subnet_a, subnet_b], }, )

Cuplikan kode yang disebutkan di atas mengasumsikan bahwa Anda telah mengikuti langkah-langkahnya. Sebelum Anda mulai

Memanggil titik akhir SageMaker

Terakhir, tentukan klien SageMaker Runtime dan panggil SageMaker titik akhir seperti yang ditunjukkan pada cuplikan kode berikut.

endpoint_name = '<endpoint-name>' runtime_client = boto3.client('sagemaker-runtime') response = runtime_client.invoke_endpoint(EndpointName=endpoint_name, ContentType='text/csv', Body=payload)

Untuk informasi selengkapnya tentang konfigurasi titik akhir, lihatTerapkan model untuk inferensi waktu nyata.