Amazon Bedrock 모델의 텍스트 요약 정확도 평가

포커스 모드

Amazon Bedrock 모델의 텍스트 요약 정확도 평가 - Amazon SageMaker AI

상위 수준 ModelRunner 래퍼를 사용하여 JumpStart 외부에서 호스팅되는 모델을 기반으로 사용자 지정 평가를 만들 수 있습니다.

이 자습서에서는 Amazon Bedrock에서 사용할 수 있는 Anthropic Claude 2 모델을 로드하고 이 모델에 텍스트 프롬프트를 요약하도록 요청하는 방법을 보여줍니다. 그런 다음 이 자습서에서는 Rouge-L, Meteor 및 BERTScore 지표를 사용하여 모델 응답의 정확도를 평가하는 방법을 보여줍니다.

이 자습서에서는 다음을 수행하는 방법을 보여줍니다.

환경을 설정합니다.
모델 평가를 실행합니다.
분석 결과를 봅니다.

환경을 설정합니다

사전 조건

이 자습서를 시작하기 전에 기본 3.10 Python 커널 환경과 ml.m5.2xlarge Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스를 사용합니다.

인스턴스 유형 및 권장 사용 사례에 대한 추가 내용은 Studio Classic에 사용할 수 있는 인스턴스 유형 섹션을 참조하세요.

Amazon Bedrock 설정

Amazon Bedrock 모델을 사용하려면 먼저 해당 모델에 대한 액세스를 요청해야 합니다.

에 로그인합니다 AWS 계정.
1. AWS 계정이 없는 경우 Amazon Bedrock 설정의 AWS 계정 가입을 참조하세요.
Amazon Bedrock 콘솔을 엽니다.
열리는 Amazon Bedrock에 오신 것을 환영합니다! 섹션에서 모델 액세스 관리를 선택합니다.
표시되는 모델 액세스 섹션에서 모델 액세스 관리를 선택합니다.
표시되는 기본 모델 섹션에서 모델 의 Anthropic 하위 섹션에 나열된 Claude 옆에 있는 확인란을 선택합니다.
모델 액세스 요청을 선택합니다.
요청이 성공하면 선택한 모델 옆의 액세스 상태 아래에 액세스 권한 부여됨과 확인 표시가 나타납니다.
모델에 액세스하려면에 다시 로그인해야 AWS 계정 할 수 있습니다.

필요한 라이브러리 설치

코드에 다음과 같이 fmeval 및 boto3 라이브러리를 설치합니다.
```
!pip install fmeval
!pip3 install boto3==1.28.65
```
라이브러리를 가져오고, 병렬화 인수를 설정하고, 다음과 같이 Amazon Bedrock 클라이언트를 호출합니다.
```
import boto3
import json
import os

# Dependent on available hardware and memory
os.environ["PARALLELIZATION_FACTOR"] = "1"

# Bedrock clients for model inference
bedrock = boto3.client(service_name='bedrock')
bedrock_runtime = boto3.client(service_name='bedrock-runtime')
```
이전 코드 예시에서는 다음이 적용됩니다.
- PARALLELIZATION_FACTOR - 컴퓨팅 인스턴스로 전송된 동시 배치 수의 승수입니다. 하드웨어가 병렬화를 허용하는 경우 이 숫자를 설정하여 평가 작업에 대한 간접 호출 수를 곱할 수 있습니다. 예를 들어 100 간접 호출이 있고 PARALLELIZATION_FACTOR가 2로 설정된 경우 작업은 200 간접 호출을 실행합니다. PARALLELIZATION_FACTOR를 최대 10까지 늘리거나 변수를 완전히 제거할 수 있습니다. AWS Lambda의 사용 방식에 대한 블로그를 읽으려면 Kinesis 및 DynamoDB 이벤트 소스에 대한 새 Lambda 조정 제어를 PARALLELIZATION_FACTOR 참조하세요.
샘플 JSON Lines 데이터세트인 sample-dataset.jsonl을 현재 작업 디렉터리에 다운로드합니다.

환경에 다음과 같이 샘플 입력 파일이 포함되어 있는지 확인합니다.


import glob

# Check for the built-in dataset
if not glob.glob("sample-dataset.jsonl"):
print("ERROR - please make sure file exists: sample-dataset.jsonl")

모델로 샘플 추론 요청 전송

모델과 프롬프트의 MIME 유형을 정의합니다. Amazon Bedrock에서 호스팅되는 Anthropic Claude 2 모델의 경우 프롬프트는 다음과 같이 구성되어야 합니다.
```
import json
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# Ensure that your prompt has the correct format
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
```
요청 본문을 구성하는 방법에 대한 자세한 내용은 Model invocation request body field를 참조하세요. 다른 모델의 형식은 다를 수 있습니다.
모델로 샘플 요청을 보냅니다. 요청 본문에는 프롬프트와 설정하려는 추가 파라미터가 포함되어 있습니다. max_tokens_to_sample가 500으로 설정된 샘플 요청은 다음과 같습니다.
```
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))
```
이전 코드 예시에서는 다음 파라미터를 설정할 수 있습니다.
- temperature - 생성된 텍스트의 무작위성을 제어하고 양수 값을 허용합니다. temperature의 값이 클수록 모델에 더 무작위적이고 다양한 응답을 생성하도록 지시합니다. 값이 작으면 예측 가능한 응답이 생성됩니다. temperature의 범위는 0~1이며 기본값은 0.5입니다.
- topP - 다음 토큰을 생성할 때 고려할 토큰 세트를 제한하여 무작위성을 제어합니다. topP의 값이 클수록 더 넓은 어휘가 포함된 세트가 허용되고 값이 작을수록 토큰 세트가 더 가능성이 높은 단어로 제한됩니다. topP의 범위는 0~1이며 기본값은 1입니다.
- topK - 모델 예측을 top k 가능성이 높은 토큰으로 제한합니다. topK의 값이 클수록 더 창의적인 응답이 가능합니다. 값이 작으면 일관성이 더 높은 응답이 생성됩니다. topK의 범위는 0~500이며 기본값은 250입니다.
- max_tokens_to_sample - 모델에서 반환되는 토큰 수를 제한하여 응답의 길이를 제한합니다. max_tokens_to_sample의 범위는 0~4096이며 기본값은 200입니다.
- stop_sequences - 모델에게 응답 생성을 중지하도록 지시하는 문자 시퀀스 목록을 지정합니다. 모델 출력은 출력에서 나열된 문자열이 처음 발생하면 중지됩니다. 응답에는 중지 시퀀스가 포함되지 않습니다. 예를 들어 캐리지 반환 시퀀스를 사용하여 모델 응답을 한 줄로 제한할 수 있습니다. 최대 4개의 중지 시퀀스를 구성할 수 있습니다.
요청에서 지정할 수 있는 파라미터에 대한 자세한 내용은 Anthropic Claude models을 참조하세요.

FMEval 설정

다음과 같이 FMEval을 실행하는 데 필요한 라이브러리를 로드합니다.


from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy, SummarizationAccuracyConfig

입력 데이터세트의 데이터 구성을 설정합니다.

다음 샘플 입력은 sample-dataset.jsonl의 한 줄입니다.
```
{
"document": "23 October 2015 Last updated at 17:44
    BST\nIt's the highest rating a tropical storm
    can get and is the first one of this magnitude
    to hit mainland Mexico since 1959.\nBut how are
    the categories decided and what do they mean?
    Newsround reporter Jenny Lawrence explains.",
"summary": "Hurricane Patricia has been rated as
    a category 5 storm.",
"id": "34615665",
}
```
이전 샘플 입력에는 document 키 내에 요약할 텍스트가 포함되어 있습니다. 모델 응답을 평가할 참조는 summary 키에 있습니다. 데이터 구성 내에서 이러한 키를 사용하여 FMEval이 모델 응답을 평가하는 데 필요한 정보를 포함하는 열을 지정해야 합니다.

데이터 구성은 모델이 model_input_location에 요약해야 하는 텍스트를 식별해야 합니다. target_output_location을 사용하여 참조 값을 식별해야 합니다.

다음 데이터 구성 예시는 텍스트 요약 작업에 필요한 열, 이름, URI(Uniform Resource Identifier) 및 MIME 유형을 지정하는 이전 입력 예시를 참조합니다.
```
config = DataConfig(
dataset_name="sample-dataset",
dataset_uri="sample-dataset.jsonl",
dataset_mime_type=MIME_TYPE_JSONLINES,
model_input_location="document",
target_output_location="summary"
)
```
다른 작업에 필요한 열 정보에 대한 자세한 내용은 자동 모델 평가의 사용자 지정 입력 데이터세트 사용 섹션을 참조하세요.
다음 코드 예시에 표시된 대로 사용자 지정 ModelRunner를 설정합니다.
```
bedrock_model_runner = BedrockModelRunner(
model_id=model_id,
output='completion',
content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
```
이전 코드 예시에서는 다음을 지정합니다.
- model_id – 모델을 지정하는 데 사용되는 ID입니다.
- output - completion 키에 응답을 반환하는 Anthropic Claude 2 모델에서 출력을 캡처합니다.
- content_template - 모델이 요청과 상호 작용하는 방식을 지정합니다. 예시 구성 템플릿은 이전 예시를 설명하기 위한 목적으로만 다음과 같이 자세히 설명되어 있으며 필수는 아닙니다.
  - 이전 content_template 예시에서는 다음이 적용됩니다.
    
    prompt 변수는 사용자의 요청을 캡처하는 입력 프롬프트를 지정합니다.
    
    max_tokens_to_sample 변수는 응답 길이를 제한하기 위해 최대 토큰 수를 500으로 지정합니다.
    
    요청에서 지정할 수 있는 파라미터에 대한 자세한 내용은 Anthropic Claude models을 참조하세요.
    
    content_template 파라미터의 형식은 LLM에서 지원하는 입력 및 파라미터에 따라 달라집니다. 이 자습서에서 Anthropic의 Claude 2 모델은 다음 content_template을 사용합니다.
    
    "content_template": "{\"prompt\": $prompt, \"max_tokens_to_sample\": 500}"
    
    또 다른 예로 Falcon 7b 모델은 다음 content_template을 지원할 수 있습니다.
    
    "content_template": "{\"inputs\": $prompt, \"parameters\":{\"max_new_tokens\": \ 10, \"top_p\": 0.9, \"temperature\": 0.8}}"

모델 평가 실행

평가 알고리즘 정의 및 실행

평가 알고리즘을 정의합니다. 다음 예시에서는 텍스트 요약 작업의 정확도를 결정하는 데 사용되는 SummarizationAccuracy 알고리즘을 정의하는 방법을 보여줍니다.
```
eval_algo = SummarizationAccuracy(SummarizationAccuracyConfig())
```
다른 평가 작업에 대한 지표를 계산하는 알고리즘의 예는 fmeval 라이브러리를 사용하여 자동 평가 실행의 모델 평가를 참조하세요.
평가 알고리즘을 실행합니다. 다음 코드 예시에서는 이전에 정의한 데이터 구성과 Human 및 Assistant 키를 사용하는 prompt_template을 사용합니다.
```
eval_output = eval_algo.evaluate(model=bedrock_model_runner,
dataset_config=config,
prompt_template="Human: $feature\n\nAssistant:\n", save=True)
```
이전 코드 예시에서 feature는 Amazon Bedrock 모델이 예상하는 형식으로 프롬프트를 포함합니다.

분석 결과 보기

다음과 같이 평가 알고리즘에서 반환한 eval_output 객체에서 평가 보고서를 구문 분석합니다.


# parse report
print(json.dumps(eval_output, default=vars, indent=4))

이전 명령은 다음 출력을 반환합니다.


[
{
    "eval_name": "summarization_accuracy",
    "dataset_name": "sample-dataset",
    "dataset_scores": [
        {
            "name": "meteor",
            "value": 0.2048823008681274
        },
        {
            "name": "rouge",
            "value": 0.03557697913367101
        },
        {
            "name": "bertscore",
            "value": 0.5406564395678671
        }
    ],
    "prompt_template": "Human: $feature\n\nAssistant:\n",
    "category_scores": null,
    "output_path": "/tmp/eval_results/summarization_accuracy_sample_dataset.jsonl",
    "error": null
}
]

이전 예시 출력에는 Meteor, Rouge 및 BERTScore라는 세 가지 정확도 점수, 입력 prompt_template, 요청한 경우 category_score, 오류 및 output_path가 표시됩니다. 다음 단계에서 output_path를 사용하여 Pandas DataFrame을 만듭니다.

결과를 가져와 DataFrame에 읽고 다음과 같이 정확도 점수를 모델 입력, 모델 출력 및 대상 출력에 연결합니다.


import pandas as pd

data = []
with open("/tmp/eval_results/summarization_accuracy_sample_dataset.jsonl", "r") as file:
for line in file:
    data.append(json.loads(line))
df = pd.DataFrame(data)
df['meteor_score'] = df['scores'].apply(lambda x: x[0]['value'])
df['rouge_score'] = df['scores'].apply(lambda x: x[1]['value'])
df['bert_score'] = df['scores'].apply(lambda x: x[2]['value'])
df

이 간접 호출에서 이전 코드 예시는 다음 출력(간결성을 위해 압축됨)을 반환합니다.


model_input     model_output     target_output     prompt     scores     meteor_score     rouge_score     bert_score
0     John Edward Bates, formerly of Spalding, Linco...     I cannot make any definitive judgments, as th...     A former Lincolnshire Police officer carried o...     Human: John Edward Bates, formerly of Spalding...     [{'name': 'meteor', 'value': 0.112359550561797...     0.112360     0.000000     0.543234 ...
1     23 October 2015 Last updated at 17:44 BST\nIt'...     Here are some key points about hurricane/trop...     Hurricane Patricia has been rated as a categor...     Human: 23 October 2015 Last updated at 17:44 B...     [{'name': 'meteor', 'value': 0.139822692925566...     0.139823     0.017621     0.426529 ...
2     Ferrari appeared in a position to challenge un...     Here are the key points from the article:\n\n...     Lewis Hamilton stormed to pole position at the...     Human: Ferrari appeared in a position to chall...     [{'name': 'meteor', 'value': 0.283411142234671...     0.283411     0.064516     0.597001 ...
3     The Bath-born player, 28, has made 36 appearan...     Okay, let me summarize the key points from th...     Newport Gwent Dragons number eight Ed Jackson ...     Human: The Bath-born player, 28, has made 36 a...     [{'name': 'meteor', 'value': 0.089020771513353...     0.089021     0.000000     0.533514 ...
...

모델 출력은 이전 샘플 출력과 다를 수 있습니다.

이 섹션에 제공된 코드 예시가 포함된 노트북은 bedrock-claude-summarization-accuracy.ipnyb를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

JumpStart 모델의 프롬프트 고정 관념화 평가

문제 해결

이 페이지에서

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음