기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
리전 간 추론을 통한 처리량 증가
온디맨드 모드에서 모델 추론을 실행할 때 서비스 할당량에 의해 또는 사용량이 가장 많은 시간에 요청이 제한될 수 있습니다. 리전 간 추론을 사용하면 다양한 컴퓨팅을 활용하여 계획되지 않은 트래픽 버스트를 원활하게 관리할 수 있습니다 AWS 리전. 리전 간 추론을 사용하면 트래픽을 여러에 분산 AWS 리전하여 처리량을 높일 수 있습니다.
교차 리전 추론을 사용하려면 모델 추론을 실행할 때 다음과 같은 방법으로 추론 프로파일을 포함합니다.
-
온디맨드 모델 추론 - InvokeModel, , InvokeModelWithResponseStream Converse 또는 ConverseStream 요청을 보낼
modelId
때 추론 프로파일의 ID를 로 지정합니다. 추론 프로파일은 소스 리전에서 시작된 추론 요청을 라우팅할 수 있는 하나 이상의 리전을 정의합니다. 교차 리전 추론을 사용하면 추론 프로파일에 정의된 리전 간에 모델 호출 요청을 동적으로 라우팅하여 처리량과 성능이 향상됩니다. 사용자 트래픽, 수요 및 리소스 사용률의 라우팅 요인입니다. 자세한 내용은 모델 추론을 사용하여 프롬프트 제출 및 응답 생성 단원을 참조하세요. -
배치 추론 - 요청을 보낼
modelId
때 추론 프로파일의 ID를 로 지정하여 배치 추론과 비동기적으로 CreateModelInvocationJob 요청을 제출합니다. 추론 프로파일을 사용하면 여러에서 컴퓨팅을 활용하고 배치 작업의 처리 시간을 AWS 리전 단축할 수 있습니다. 작업이 완료되면 소스 리전의 Amazon S3 버킷에서 출력 파일을 검색할 수 있습니다. -
지식 기반 응답 생성 - 지식 기반을 쿼리한 후 응답을 생성하거나 데이터 소스에서 비텍스트 정보를 구문 분석할 때 리전 간 추론을 사용할 수 있습니다. 자세한 내용은 쿼리 및 응답을 사용하여 지식 기반 테스트 및 데이터 소스에 대한 구문 분석 옵션 단원을 참조하세요.
-
모델 평가 - 모델 평가 작업을 제출할 때 평가할 모델로 추론 프로파일을 제출할 수 있습니다. 자세한 내용은 Amazon Bedrock 리소스의 성능 평가 단원을 참조하십시오.
-
프롬프트 관리 - 프롬프트 관리에서 생성한 프롬프트에 대한 응답을 생성할 때 리전 간 추론을 사용할 수 있습니다. 자세한 내용은 Amazon Bedrock에서 프롬프트 관리를 사용하여 재사용 가능한 프롬프트 구성 및 저장 단원을 참조하세요.
-
프롬프트 흐름 - 프롬프트 흐름의 프롬프트 노드에서 인라인으로 정의하는 프롬프트에 대한 응답을 생성할 때 리전 간 추론을 사용할 수 있습니다. 자세한 내용은 Amazon Bedrock Flows를 사용하여 end-to-end 생성형 AI 워크플로 구축 단원을 참조하십시오.
추론 프로파일을 사용하여 리전 간 추론을 실행할 수 있는 리전 및 모델을 보려면 섹션을 참조하세요추론 프로파일에 지원되는 리전 및 모델.
프로비저닝된 처리량을 구매하여 모델의 처리량을 늘릴 수도 있습니다. 추론 프로파일은 현재 프로비저닝된 처리량을 지원하지 않습니다.
추론 프로파일을 사용하여 리전 간에 모델 호출 요청을 전송하는 방법을 알아보려면 섹션을 참조하세요모델 간접 호출에 추론 프로파일 사용.
교차 리전 추론에 대한 다음 정보를 참고하세요.
-
교차 리전 추론을 사용하는 데 드는 추가 라우팅 비용은 없습니다. 가격은 추론 프로파일을 직접적으로 호출하는 리전을 기준으로 계산됩니다. 요금에 대한 자세한 내용은 Amazon Bedrock 요금
을 참조하세요. -
교차 리전 추론을 사용하는 경우 처리량은 추론 프로파일이 있는 리전의 기본 할당량의 최대 두 배에 도달할 수 있습니다. 처리량 증가는 추론 프로파일을 통해 수행된 호출에만 적용되며, 리전 내 모델 간접 호출 요청을 선택한 경우에도 정규 할당량이 계속 적용됩니다. 예를 들어 미국 Anthropic Claude 3 Sonnet us-east-1의 추론 프로파일로 처리량은 분당 최대 1,000개의 요청과 분당 2,000,000개의 토큰에 도달할 수 있습니다. 온디맨드 처리량의 기본 할당량을 보려면 Amazon Bedrock의 할당량의 Runtime quotas 섹션을 참조하거나 Service Quotas 콘솔을 사용하세요.
-
교차 리전 추론 요청은 사용된 추론 프로파일의 일부인 리전 내에 유지됩니다. 예를 들어, EU 추론 프로파일로 이루어진 요청은 EU 리전 내에 유지됩니다.
교차 리전 추론에 대한 자세한 내용은 Getting started with cross-region inference in Amazon Bedrock