Menyebarkan AWS PrivateLink Menerapkan titik akhir SageMaker AI di VPC Memanggil titik akhir SageMaker AI

Inferensi real-time latensi rendah dengan AWS PrivateLink

Amazon SageMaker AI memberikan latensi rendah untuk inferensi waktu nyata sambil mempertahankan ketersediaan dan ketahanan tinggi menggunakan penerapan multi-AZ. Latensi aplikasi terdiri dari dua komponen utama: infrastruktur atau latensi overhead dan latensi inferensi model. Pengurangan latensi overhead membuka kemungkinan baru seperti menerapkan model yang lebih kompleks, mendalam, dan akurat atau membagi aplikasi monolitik menjadi modul layanan mikro yang dapat diskalakan dan dapat dipelihara. Anda dapat mengurangi latensi untuk inferensi real-time dengan SageMaker AI menggunakan penerapan. AWS PrivateLink Dengan AWS PrivateLink, Anda dapat mengakses semua operasi SageMaker API secara pribadi dari Virtual Private Cloud (VPC) Anda dengan cara yang dapat diskalakan dengan menggunakan titik akhir VPC antarmuka. Endpoint VPC antarmuka adalah elastic network interface di subnet Anda dengan alamat IP pribadi yang berfungsi sebagai titik masuk untuk semua panggilan API. SageMaker

Secara default, titik akhir SageMaker AI dengan 2 instans atau lebih diterapkan di setidaknya 2 AWS Availability Zones (AZs) dan instance di AZ mana pun dapat memproses pemanggilan. Ini menghasilkan satu atau lebih “hop” AZ yang berkontribusi pada latensi overhead. AWS PrivateLink Penerapan dengan privateDNSEnabled opsi yang ditetapkan sebagai true meringankan hal ini dengan mencapai dua tujuan:

Itu menyimpan semua lalu lintas inferensi dalam VPC Anda.
Itu membuat lalu lintas pemanggilan di AZ yang sama dengan klien yang memulainya saat menggunakan Runtime. SageMaker Ini menghindari “lompatan” antara AZs mengurangi latensi overhead.

Bagian berikut dari panduan ini menunjukkan bagaimana Anda dapat mengurangi latensi untuk inferensi waktu nyata dengan AWS PrivateLink penerapan.

Topik

Menyebarkan AWS PrivateLink
Menerapkan titik akhir SageMaker AI di VPC
Memanggil titik akhir SageMaker AI

Menyebarkan AWS PrivateLink

Untuk menerapkan AWS PrivateLink, pertama-tama buat titik akhir antarmuka untuk VPC tempat Anda terhubung ke titik akhir AI. SageMaker Ikuti langkah-langkah di Akses AWS layanan menggunakan titik akhir VPC antarmuka untuk membuat titik akhir antarmuka. Saat membuat titik akhir, pilih pengaturan berikut di antarmuka konsol:

Pilih kotak centang Aktifkan nama DNS di bawah Pengaturan Tambahan
Pilih grup keamanan yang sesuai dan subnet yang akan digunakan dengan titik akhir SageMaker AI.

Pastikan juga bahwa VPC mengaktifkan nama host DNS. Untuk informasi selengkapnya tentang cara mengubah atribut DNS untuk VPC Anda, lihat Melihat dan memperbarui atribut DNS untuk VPC Anda.

Menerapkan titik akhir SageMaker AI di VPC

Untuk mencapai latensi overhead rendah, buat titik akhir SageMaker AI menggunakan subnet yang sama dengan yang Anda tentukan saat menerapkan. AWS PrivateLink Subnet ini harus sesuai dengan aplikasi klien Anda, seperti yang ditunjukkan dalam cuplikan kode berikut. AZs


model_name = '<the-name-of-your-model>'

vpc = 'vpc-0123456789abcdef0'
subnet_a = 'subnet-0123456789abcdef0'
subnet_b = 'subnet-0123456789abcdef1'
security_group = 'sg-0123456789abcdef0'

create_model_response = sagemaker_client.create_model(
    ModelName = model_name,
    ExecutionRoleArn = sagemaker_role,
    PrimaryContainer = {
        'Image': container,
        'ModelDataUrl': model_url
    },
    VpcConfig = {
        'SecurityGroupIds': [security_group],
        'Subnets': [subnet_a, subnet_b],
    },
)

Cuplikan kode yang disebutkan di atas mengasumsikan bahwa Anda telah mengikuti langkah-langkahnya. Sebelum Anda mulai

Memanggil titik akhir SageMaker AI

Terakhir, tentukan klien SageMaker Runtime dan panggil titik akhir SageMaker AI seperti yang ditunjukkan pada cuplikan kode berikut.


endpoint_name = '<endpoint-name>'
  
runtime_client = boto3.client('sagemaker-runtime')
response = runtime_client.invoke_endpoint(EndpointName=endpoint_name, 
                                          ContentType='text/csv', 
                                          Body=payload)

Untuk informasi selengkapnya tentang konfigurasi titik akhir, lihatTerapkan model untuk inferensi waktu nyata.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pantau Praktik Terbaik Keamanan

Migrasikan beban kerja inferensi dari x86 ke Graviton AWS