

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 지연 시간에 대한 모델 추론 최적화
<a name="latency-optimized-inference"></a>

**참고**  
지연 시간 최적화 추론 기능은에 대한 미리 보기 릴리스이며 변경될 수 Amazon Bedrock 있습니다.

의 파운데이션 모델에 대한 지연 시간 최적화 추론은 AI 애플리케이션에 더 빠른 응답 시간과 향상된 응답성을 Amazon Bedrock 제공합니다. 최적화된 버전의 [https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html](https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html), [Anthropic의 Claude 3.5 Haiku 모델](https://aws.amazon.com/bedrock/claude/) 및 [Meta의 Llama 3.1 405B 및 70B 모델](https://aws.amazon.com/bedrock/llama/)은 정확도를 손상시키지 않고 지연 시간을 크게 단축합니다.

지연 시간 최적화 기능에 액세스하려면 추가 설정이나 모델 미세 조정이 필요하지 않으므로 응답 시간이 빨라진 기존 애플리케이션을 즉시 개선할 수 있습니다. Amazon Bedrock 런타임 API를 직접 호출하는 동안 “지연 시간” 파라미터를 “최적화됨”으로 설정할 수 있습니다. 간접 호출 옵션으로 "표준"을 선택하면 요청이 표준 추론으로 처리됩니다. 기본적으로 모든 요청은 "표준"을 통해 로 라우팅됩니다.

```
"performanceConfig" : {
    "latency" : "standard | optimized" 
}
```

모델의 지연 시간 최적화를 위한 사용량 할당량에 도달하면 표준 지연 시간으로 요청을 처리하려고 시도합니다. 이 경우 요청에 표준 지연 시간 요금이 부과됩니다. 제공된 요청에 대한 지연 시간 구성은 API 응답 및 AWS CloudTrail 로그에 표시됩니다. "model-id\+latency-optimized"에서 Amazon CloudWatch 로그의 지연 시간 최적화 요청에 대한 지표를 볼 수도 있습니다.

지연 시간 최적화 추론은 [교차 리전](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html) 추론을 통해 미국 동부(오하이오) 및 미국 서부(오리건) 리전에서 Meta의 Llama 3.1 70B 및 405B와 Anthropic의 Claude 3.5 Haiku에 사용할 수 있습니다.

지연 시간 최적화 추론은 [리전 간](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html) 추론을 통해 미국 동부(버지니아 북부), 미국 동부(오하이오) 및 미국 서부(오리건) 리전의 Amazon Nova Pro에 대해 사용할 수 있습니다.

요금에 대한 자세한 내용은 [요금 세부 정보](https://aws.amazon.com/bedrock/pricing/) 페이지를 참조하세요.

**참고**  
 Llama 3.1 405B에 대한 지연 시간 최적화 추론은 현재 총 입력 및 출력 토큰 수가 최대 11K인 요청을 지원합니다. 더 큰 토큰 수 요청의 경우 표준 모드로 돌아갑니다.

다음 표에는 지연 시간 최적화를 지원하는 추론 프로파일이 나와 있습니다.


| 제공업체 | 모델 | 모델 ID | 교차 리전 추론 프로파일 지원 | 
| --- | --- | --- | --- | 
| Amazon | Nova Pro | amazon.nova-pro-v1:0 |  us-east-1 us-east-2  | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |  us-east-2 us-west-2  | 
| Meta | Llama 3.1 405B 지침 | meta.llama3-1-405b-instruct-v1:0 |  us-east-2  | 
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70b-instruct-v1:0 |  us-east-2 us-west-2  | 

추론 프로파일에 대한 자세한 내용은 [추론 프로파일에 지원되는 리전 및 모델](inference-profiles-support.md) 섹션을 참조하세요.