쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

SageMaker AI 다중 모델 엔드포인트 모델 캐싱 동작 설정

포커스 모드
SageMaker AI 다중 모델 엔드포인트 모델 캐싱 동작 설정 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기본적으로 다중 모델 엔드포인트는 자주 사용되는 모델을 메모리 (CPU 또는 GPU 지원 인스턴스가 있는지 여부에 따라 CPU 또는 GPU)와 디스크에 캐시하여 지연 시간이 짧은 추론을 제공합니다. 캐시된 모델은 컨테이너의 메모리나 디스크 공간이 부족하여 새로 대상 지정된 모델을 수용할 수 없는 경우에만 디스크에서 언로드 및/또는 삭제됩니다.

create_model을 호출할 때 파라미터 ModelCacheSetting을 설정하여 다중 모델 엔드포인트의 캐싱 동작을 변경하고 모델 캐싱을 명시적으로 활성화 또는 비활성화할 수 있습니다.

모델 캐싱의 이점이 없는 사용 사례의 경우 ModelCacheSetting 파라미터 값을 Disabled로 설정하는 것이 좋습니다. 많은 수의 모델을 엔드포인트에서 제공해야 하는데 각 모델이 한 번만(또는 매우 이따금씩) 호출되는 경우를 예로 들 수 있습니다. 이러한 사용 사례의 경우 ModelCacheSetting 파라미터 값을 Disabled로 설정하면 기본 캐싱 모드에 비해 invoke_endpoint 요청에 대한 초당 트랜잭션 수(TPS)를 늘릴 수 있습니다. 이러한 사용 사례에서 TPS가 높을수록 SageMaker AI는 invoke_endpoint 요청 후 다음을 수행하기 때문입니다.

  • 모델을 메모리에서 비동기식으로 언로드하고 간접 호출된 직후 디스크에서 모델을 삭제합니다.

  • 추론 컨테이너에서 모델을 다운로드하고 로드할 때 더 높은 동시성을 제공합니다. CPU 및 GPU 지원 엔드포인트 모두에 대해, 동시성은 컨테이너 인스턴스의 vCPU 수에 영향을 미칩니다.

다중 모델 엔드포인트에 대한 SageMaker AI ML 인스턴스 유형을 선택하는 방법에 대한 지침은 섹션을 참조하세요다중 모델 엔드포인트 배포를 위한 인스턴스 권장 사항.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.