모델 평가 시작하기 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 평가 시작하기

대형 언어 모델(LLM)은 자연어 텍스트를 분석하고 생성할 수 있는 기계 학습 모델입니다. 를 평가하려는 경우 선택할 수 있는 다음 세 가지 옵션을 LLM SageMaker 제공합니다.

  • Studio를 사용하여 인적 인력에 대한 수동 평가를 설정합니다.

  • Studio를 사용하여 알고리즘으로 모델을 평가합니다.

  • fmeval 라이브러리를 사용하여 사용자 지정 워크플로를 사용하여 모델을 자동으로 평가합니다.

알고리즘을 사용하여 파운데이션 모델을 자동으로 평가하거나 인적 작업 팀에 모델의 응답을 평가하도록 요청할 수 있습니다.

인적 작업 팀은 다른 응답보다 한 응답에 대한 선호도를 나타내는 지표를 사용하여 최대 두 모델을 동시에 평가하고 비교할 수 있습니다. 인적 평가를 위한 작업 흐름, 지표 및 지침은 특정 사용 사례에 맞게 조정할 수 있습니다. 또한 인간은 알고리즘 평가보다 더 정교한 평가를 제공할 수 있습니다.

또한 알고리즘을 사용하여 벤치마크를 LLM 사용하여 Studio에서 모델 응답을 빠르게 채점하는 를 평가할 수 있습니다. Studio는 사전 정의된 지표를 사용하여 JumpStart 모델의 응답을 평가하는 안내 작업 흐름을 제공합니다. 이러한 지표는 생성형 AI 태스크에만 적용됩니다. 이 안내 흐름은 내장 또는 사용자 지정 데이터 세트를 사용하여 를 평가합니다LLM.

또는 fmeval 라이브러리를 사용하여 Studio에서 사용할 수 있는 것보다 자동 평가를 사용하여 더 사용자 지정된 워크플로를 생성할 수 있습니다. 사용 Python 코드 및 fmeval 라이브러리를 사용하여 외부에서 생성된 모델을 LLM포함하여 모든 텍스트 기반 를 평가할 수 있습니다 JumpStart.

다음 주제에서는 파운데이션 모델 평가 개요, 자동 및 인적 파운데이션 모델 평가(FMEval) 작업 흐름 요약, 실행 방법 및 결과 분석 보고서를 보는 방법을 제공합니다. 자동 평가 주제에서는 시작 평가와 사용자 지정 평가를 모두 구성하고 실행하는 방법을 보여줍니다.

주제