Amazon Bedrock 추론

Amazon Nova 모델을 훈련하고 테스트한 후에는 프로덕션 규모의 추론을 위해 Amazon Bedrock에 모델을 배포할 수 있습니다. 배포 프로세스에는 CreateCustomModel API를 사용하여 Amazon Bedrock 모델을 생성하고, 관리형 Amazon S3 버킷에서 모델 아티팩트로 모델 아티팩트를 내보낸 다음, 모델이 ACTIVE 상태이면 온디맨드 또는 프로비저닝된 처리량 추론으로 엔드포인트를 구성하는 작업이 포함됩니다.

SageMaker에서 사용자 지정 모델을 생성한 후 CreateCustomModel API를 사용하여 SageMaker 에스크로에서 Amazon Bedrock에 이를 배포하여 추론을 실행할 수 있습니다. 그런 다음 CreateCustomModelDeployment를 사용하여 OD 추론 엔드포인트를 생성하거나 파라미터 효율 미세 조정(PEFT) 모델에 대해 프로비저닝된 처리량 추론을 설정할 수 있습니다. 전체 순위 사용자 지정 모델에 대해 프로비저닝된 처리량 추론을 설정할 수 있습니다.

Amazon Nova Forge SDK를 사용하여 사용자 지정 Amazon Nova 모델을 배포할 수도 있습니다. Amazon Nova Forge SDK는 훈련 작업 또는 S3 모델 체크포인트에서 관련 정보를 추출하여 Amazon Bedrock에 게시할 수 있는 간소화된 환경을 제공합니다. 자세한 내용은 Amazon Nova Forge SDK를 참조하세요.

사용자 지정 모델에 대한 Amazon Bedrock 추론을 설정하는 자세한 단계는 Amazon Bedrock에 사용자 지정 Amazon Nova 모델 배포를 참조하세요.

다음 섹션에서는 사용자 지정 모델에서 온디맨드 추론을 자세히 설명합니다.

사용자 지정 모델에 대한 온디맨드 추론

온디맨드(OD) 추론을 사용하면, 프로비저닝된 처리량 엔드포인트를 유지하지 않고도 사용자 지정 Amazon Nova 모델에서 추론을 실행할 수 있습니다. 이를 통해 비용을 최적화하고 효율적으로 확장할 수 있습니다. 온디맨드 추론 사용 시 입력 및 출력 토큰 수를 기준으로 사용량에 따라 요금이 청구됩니다.

호환성 요구 사항

다음과 같은 호환성 요구 사항이 적용됩니다.

Amazon Nova Pro, Lite, Micro 사용자 지정 이해 모델에서 OD 추론을 지원합니다. Nova 사용자 지정 콘텐츠 생성 모델에서는 OD 추론을 지원하지 않습니다.
2025년 7월 16일 이후에 학습된 Amazon Nova 사용자 지정 이해 모델에서만 OD 추론을 지원합니다. 2025년 7월 16일 이전에 학습된 사용자 지정 모델은 OD 추론과 호환되지 않습니다.
Amazon Bedrock 사용자 지정: Amazon Bedrock 사용자 지정을 사용해 만든 모델과 Amazon Bedrock을 사용해 교사 모델로부터 증류한 학생 모델에서 OD 추론을 지원합니다.
SageMaker AI 사용자 지정: SageMaker AI에서 사용자 지정한 모델 중 Amazon Bedrock에서 호스팅되는 파라미터 효율적 미세 조정(PEFT) 모델에서만 OD 추론을 지원합니다. 여기에는 직접 선호 최적화 + PEFT 모델이 포함됩니다. 전체 순위 미세 조정 모델에서는 OD 추론을 지원하지 않습니다.

모델 훈련 및 추론

2025년 7월 16일 이후 Amazon Bedrock 또는 SageMaker AI에서 PEFT를 사용해 새로운 Amazon Nova Pro, Lite, 또는 Micro 모델을 학습하면, 해당 모델은 프로비저닝된 추론 옵션과 온디맨드 추론 옵션 모두와 자동으로 호환됩니다. 모델 배포 시 원하는 추론 방식을 선택할 수 있습니다.

2025년 7월 16일 이후 학습한 모델에서 OD 추론을 사용하는 방법:

Amazon Bedrock 사용자 지정 API 또는 SageMaker AI 사용자 지정 API를 사용해 새로운 미세 조정 작업을 생성합니다.
CreateCustomModel API를 사용해 새로 학습한 모델을 Amazon Bedrock에 배포합니다.
CustomModelDeployment API를 사용해 온디맨드 추론을 위한 배포를 수행합니다.

속도 제한

온디맨드 추론 요청에는 다음과 같은 분당 요청 수(RPM) 및 분당 토큰 수(TPM) 제한이 적용됩니다.

Base Model for Custom Model	RPM per Custom Model Deployment	TPM per Custom Model Deployment
Nova 2 Lite	2,000	4,000,000

Amazon Nova의 가용 할당량에 대한 자세한 내용은 Amazon Nova 할당량 섹션을 참조하세요.

Latency

기본 모델 호출과 어댑터 간에는 엔드 투 엔드 지연 시간 차이, 즉 첫 토큰 생성까지 걸리는 시간(TTFT)이 약 20~55% 발생할 수 있습니다. 정확한 지연 시간 값은 모델 크기에 따라 달라지며, 업계 표준에 부합합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon Nova Forge에서 침해 탐지

사용자 지정 모델 온디맨드 추론용 배포