Amazon Bedrock 평가를 사용하여 가장 성능이 좋은 모델 선택
Amazon Bedrock은 모델 평가 작업을 지원합니다. 모델 평가 작업의 결과를 통해 모델 또는 추론 프로파일 출력을 비교한 다음, 다운스트림 생성형 AI 애플리케이션에 가장 적합한 모델을 선택할 수 있습니다.
모델 평가 작업은 텍스트 생성, 텍스트 분류, 질문 및 답변, 텍스트 요약과 같은 대규모 언어 모델(LLM)의 일반적인 사용 사례를 지원합니다.
자동 모델 평가 작업의 성능을 평가하기 위해 기본 제공 프롬프트 데이터세트 또는 자체 프롬프트 데이터세트를 사용할 수 있습니다. 사람 작업자를 활용하는 모델 평가 작업의 경우, 자체 데이터세트를 사용해야 합니다.
자동 모델 평가 작업을 생성할지, 작업 인력을 사용하는 모델 평가 작업을 생성할지 선택할 수 있습니다.
개요: 자동 모델 평가 작업
자동 모델 평가 작업을 사용하면 모델의 작업 수행 능력을 빠르게 평가할 수 있습니다. 특정 사용 사례에 맞게 조정한 사용자 지정 프롬프트 데이터 세트를 제공하거나 사용 가능한 내장형 데이터 세트를 사용할 수 있습니다.
개요: 작업자를 사용하는 모델 평가 작업
작업자를 사용하는 모델 평가 작업을 사용하면 모델 평가 프로세스에 사람의 의견을 반영할 수 있습니다. 이들은 회사 직원이거나 업계의 분야별 전문가 그룹일 수 있습니다.
이 섹션에서는 모델 평가 작업을 만들고 관리하는 방법과 사용할 수 있는 성능 지표의 종류를 보여줍니다. 또한 사용 가능한 기본 제공 데이터세트와 자체 데이터세트를 지정하는 방법도 설명합니다.