기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock 모델의 텍스트 요약 정확도 평가
상위 수준 ModelRunner
래퍼를 사용하여 외부에서 호스팅되는 모델을 기반으로 사용자 지정 평가를 생성할 수 있습니다 JumpStart.
이 자습서에서는 Amazon Bedrock에서 사용할 수 있는 Anthropic Claude 2 모델을
자습서에서는 다음을 수행하는 방법을 보여줍니다.
-
환경을 설정합니다.
-
모델 평가를 실행합니다.
-
분석 결과를 봅니다.
환경을 설정합니다
사전 조건
-
기본 사용 Python 이 자습서를 시작하기 전에 3.10 커널 환경 및
ml.m5.2xlarge
Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스.인스턴스 유형 및 권장 사용 사례에 대한 자세한 내용은 섹션을 참조하세요Studio Classic과 함께 사용할 수 있는 인스턴스 유형.
Amazon Bedrock 설정
Amazon Bedrock 모델을 사용하려면 먼저 해당 모델에 대한 액세스를 요청해야 합니다.
-
에 로그인합니다 AWS 계정.
-
AWS 계정이 없는 경우 Amazon Bedrock 설정의 AWS 계정 가입을 참조하세요.
-
-
Amazon Bedrock 콘솔
을 엽니다. -
열리는 Amazon Bedrock에 오신 것을 환영합니다! 섹션에서 모델 액세스 관리 를 선택합니다.
-
표시되는 모델 액세스 섹션에서 모델 액세스 관리 를 선택합니다.
-
표시되는 기본 모델 섹션에서 모델 의 Anthropic 하위 섹션에 나열된 Claude 옆에 있는 확인란을 선택합니다.
-
모델 액세스 요청 을 선택합니다.
-
요청이 성공하면 선택한 모델 옆의 액세스 상태 아래에 액세스 권한이 부여된 확인 표시가 나타나야 합니다.
-
모델에 액세스하려면 에 다시 로그인해야 AWS 계정 할 수 있습니다.
필수 라이브러리 설치
-
코드에 다음과 같이
fmeval
및boto3
라이브러리를 설치합니다.!pip install fmeval !pip3 install boto3==1.28.65
-
라이브러리를 가져오고, 병렬화 인수를 설정하고, 다음과 같이 Amazon Bedrock 클라이언트를 호출합니다.
import boto3 import json import os # Dependent on available hardware and memory os.environ["PARALLELIZATION_FACTOR"] = "1" # Bedrock clients for model inference bedrock = boto3.client(service_name='bedrock') bedrock_runtime = boto3.client(service_name='bedrock-runtime')
이전 코드 예제에서는 다음이 적용됩니다.
-
PARALLELIZATION_FACTOR
- 컴퓨팅 인스턴스로 전송된 동시 배치 수의 승수입니다. 하드웨어가 병렬화를 허용하는 경우 이 숫자를 설정하여 평가 작업에 대한 호출 수를 곱할 수 있습니다. 예를 들어100
호출이 있고 이 로PARALLELIZATION_FACTOR
설정된 경우2
작업은200
호출을 실행합니다.PARALLELIZATION_FACTOR
최대 까지 늘리10
거나 변수를 완전히 제거할 수 있습니다. AWS Lambda의 사용 방식에 대한 블로그를 읽으려면 Kinesis 및 DynamoDB 이벤트 소스에 대한 새 Lambda 조정 제어를PARALLELIZATION_FACTOR
참조하세요.
-
-
샘플
JSON Lines
데이터 세트인 sample-dataset.jsonl을현재 작업 디렉터리에 다운로드합니다. -
환경에 다음과 같이 샘플 입력 파일이 포함되어 있는지 확인합니다.
import glob # Check for the built-in dataset if not glob.glob("sample-dataset.jsonl"): print("ERROR - please make sure file exists: sample-dataset.jsonl")
모델로 샘플 추론 요청 전송
-
모델과 프롬프트
MIME
유형을 정의합니다. Amazon Bedrock에서 호스팅되는 Anthropic Claude 2 모델의경우 프롬프트는 다음과 같이 구성되어야 합니다. import json model_id = 'anthropic.claude-v2' accept = "application/json" contentType = "application/json" # Ensure that your prompt has the correct format prompt_data = """Human: Who is Barack Obama? Assistant: """
요청 본문을 구성하는 방법에 대한 자세한 내용은 모델 호출 요청 본문 필드 단원을 참조하세요. 다른 모델의 형식은 다를 수 있습니다.
-
모델로 샘플 요청을 보냅니다. 요청 본문에는 프롬프트와 설정하려는 추가 파라미터가 포함되어 있습니다. 가
500
다음과 같이max_tokens_to_sample
설정된 샘플 요청입니다.body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500}) response = bedrock_runtime.invoke_model( body=body, modelId=model_id, accept=accept, contentType=contentType ) response_body = json.loads(response.get("body").read()) print(response_body.get("completion"))
이전 코드 예제에서는 다음 파라미터를 설정할 수 있습니다.
-
temperature
- 생성된 텍스트의 무작위성을 제어하고 양수 값을 허용합니다. 값이 높을수록 모델에 더 무작위적이고 다양한 응답을 생성하도록temperature
지시합니다. 값이 낮으면 예측 가능한 응답이 생성됩니다. 의 범위는0
~temperature
사이1
이며 기본값은 0.5입니다. -
topP
– 다음 토큰을 생성할 때 고려할 토큰 세트를 제한하여 무작위성을 제어합니다. 값이 높을수록 더 넓은 어휘가 포함된 세트가topP
허용되고 값이 낮을수록 토큰 세트가 더 가능성이 높은 단어로 제한됩니다. 의 범위는0
~1
이며 기본값topP
은 입니다1
. -
topK
- 모델 예측을k
가장 가능성이 높은 토큰으로 제한합니다. 의 값이 높을수록 더 진보적인 응답이topK
가능합니다. 값이 낮으면 일관성이 더 높은 응답이 생성됩니다. 의 범위는0
~이며500
기본값topK
은 입니다250
. -
max_tokens_to_sample
- 모델에서 반환되는 토큰 수를 제한하여 응답의 길이를 제한합니다. 의 범위는0
~이며4096
기본값max_tokens_to_sample
은 입니다200
. -
stop_sequences
- 모델에 응답 생성을 중지하도록 지시하는 문자 시퀀스 목록을 지정합니다. 모델 출력은 출력에서 나열된 문자열이 처음 발생하면 중지됩니다. 응답에는 중지 시퀀스가 포함되지 않습니다. 예를 들어 캐리지 반환 시퀀스를 사용하여 모델 응답을 한 줄로 제한할 수 있습니다. 최대 개의4
중지 시퀀스를 구성할 수 있습니다.
요청에서 지정할 수 있는 파라미터에 대한 자세한 내용은 Anthropic Claude 모델 섹션을 참조하세요.
-
설정 FMEval
-
다음과 FMEval 같이 실행하는 데 필요한 라이브러리를 로드합니다.
from fmeval.data_loaders.data_config import DataConfig from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner from fmeval.constants import MIME_TYPE_JSONLINES from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy, SummarizationAccuracyConfig
-
입력 데이터 세트의 데이터 구성을 설정합니다.
다음 샘플 입력은 의 한 줄입니다
sample-dataset.jsonl
.{ "document": "23 October 2015 Last updated at 17:44 BST\nIt's the highest rating a tropical storm can get and is the first one of this magnitude to hit mainland Mexico since 1959.\nBut how are the categories decided and what do they mean? Newsround reporter Jenny Lawrence explains.", "summary": "Hurricane Patricia has been rated as a category 5 storm.", "id": "34615665", }
이전 샘플 입력에는
document
키 내에 요약할 텍스트가 포함되어 있습니다. 모델 응답을 평가할 참조는summary
키에 있습니다. 데이터 구성 내에서 이러한 키를 사용하여 모델 응답을 평가하는 데 FMEval 필요한 정보가 포함된 열을 지정해야 합니다.데이터 구성은 모델이 에 요약해야 하는 텍스트를 식별해야 합니다
model_input_location
. 를 사용하여 참조 값을 식별해야 합니다target_output_location
.다음 데이터 구성 예제는 텍스트 요약 작업에 필요한 열, 이름, 균일한 리소스 식별자(URI) 및
MIME
유형을 지정하는 이전 입력 예제를 참조합니다.config = DataConfig( dataset_name="sample-dataset", dataset_uri="sample-dataset.jsonl", dataset_mime_type=MIME_TYPE_JSONLINES, model_input_location="document", target_output_location="summary" )
다른 작업에 필요한 열 정보에 대한 자세한 내용은 의 사용자 지정 입력 데이터 세트 사용 섹션을 참조하세요자동 모델 평가.
-
다음 코드 예제와
ModelRunner
같이 사용자 지정을 설정합니다.bedrock_model_runner = BedrockModelRunner( model_id=model_id, output='completion', content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}' )
이전 코드 예제에서는 다음을 지정합니다.
-
model_id
– 모델을 지정하는 데 사용되는 ID입니다. -
output
- Anthropic Claude 2모델에서 출력을 캡처하여 응답을 completion
키로 반환합니다. -
content_template
- 모델이 요청과 상호 작용하는 방식을 지정합니다. 예제 구성 템플릿은 이전 예제를 설명하기 위해서만 다음과 같이 자세히 설명되어 있으며 필수는 아닙니다.-
이전
content_template
예제에서는 다음이 적용됩니다.-
변수는 사용자의 요청을 캡처하는 입력 프롬프트를
prompt
지정합니다. -
변수는 응답 길이를 제한하기
500
위해 최대 토큰 수를 로max_tokens_to_sample
지정합니다.요청에서 지정할 수 있는 파라미터에 대한 자세한 내용은 Anthropic Claude 모델 섹션을 참조하세요.
content_template
파라미터의 형식은 에서 지원하는 입력 및 파라미터에 따라 달라집니다LLM. 이 자습서에서 Anthropic의 Claude 2 모델은다음을 사용합니다 content_template
."content_template": "{\"prompt\": $prompt, \"max_tokens_to_sample\": 500}"
또 다른 예로 Falcon 7b 모델은
다음을 지원할 수 있습니다 content_template
."content_template": "{\"inputs\": $prompt, \"parameters\":{\"max_new_tokens\": \ 10, \"top_p\": 0.9, \"temperature\": 0.8}}"
-
-
-
모델 평가 실행
평가 알고리즘 정의 및 실행
-
평가 알고리즘을 정의합니다. 다음 예제에서는 텍스트 요약 작업의 정확도를 결정하는 데 사용되는
SummarizationAccuracy
알고리즘을 정의하는 방법을 보여줍니다.eval_algo = SummarizationAccuracy(SummarizationAccuracyConfig())
다른 평가 작업에 대한 지표를 계산하는 알고리즘의 예는 의 모델 평가를 참조하세요fmeval 라이브러리를 사용하여 자동 평가 실행.
-
평가 알고리즘을 실행합니다. 다음 코드 예제에서는 이전에 정의한 데이터 구성과
Human
및Assistant
키를prompt_template
사용하는 를 사용합니다.eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config, prompt_template="Human: $feature\n\nAssistant:\n", save=True)
이전 코드 예제에서 는 Amazon Bedrock 모델이 예상하는 형식으로 프롬프트를
feature
포함합니다.
분석 결과 보기
-
다음과 같이 평가 알고리즘에서 반환한
eval_output
객체에서 평가 보고서를 구문 분석합니다.# parse report print(json.dumps(eval_output, default=vars, indent=4))
이전 명령은 다음 출력을 반환합니다.
[ { "eval_name": "summarization_accuracy", "dataset_name": "sample-dataset", "dataset_scores": [ { "name": "meteor", "value": 0.2048823008681274 }, { "name": "rouge", "value": 0.03557697913367101 }, { "name": "bertscore", "value": 0.5406564395678671 } ], "prompt_template": "Human: $feature\n\nAssistant:\n", "category_scores": null, "output_path": "/tmp/eval_results/summarization_accuracy_sample_dataset.jsonl", "error": null } ]
이전 예제 출력에는 세 가지 정확도 점수가 표시됩니다. Meteor
, Rouge 및 BERTScore , 입력 prompt_template
, 요청category_score
시 , 오류 및 .output_path
다음 단계에서output_path
를 사용하여Pandas DataFrame
를 생성합니다. -
결과를 가져와 로 읽고 다음과 같이 정확도 점수를 모델 입력, 모델 출력 및 대상 출력에
DataFrame
연결합니다.import pandas as pd data = [] with open("/tmp/eval_results/summarization_accuracy_sample_dataset.jsonl", "r") as file: for line in file: data.append(json.loads(line)) df = pd.DataFrame(data) df['meteor_score'] = df['scores'].apply(lambda x: x[0]['value']) df['rouge_score'] = df['scores'].apply(lambda x: x[1]['value']) df['bert_score'] = df['scores'].apply(lambda x: x[2]['value']) df
이 호출에서 이전 코드 예제는 다음 출력(간결성을 위해 계약됨)을 반환합니다.
model_input model_output target_output prompt scores meteor_score rouge_score bert_score 0 John Edward Bates, formerly of Spalding, Linco... I cannot make any definitive judgments, as th... A former Lincolnshire Police officer carried o... Human: John Edward Bates, formerly of Spalding... [{'name': 'meteor', 'value': 0.112359550561797... 0.112360 0.000000 0.543234 ... 1 23 October 2015 Last updated at 17:44 BST\nIt'... Here are some key points about hurricane/trop... Hurricane Patricia has been rated as a categor... Human: 23 October 2015 Last updated at 17:44 B... [{'name': 'meteor', 'value': 0.139822692925566... 0.139823 0.017621 0.426529 ... 2 Ferrari appeared in a position to challenge un... Here are the key points from the article:\n\n... Lewis Hamilton stormed to pole position at the... Human: Ferrari appeared in a position to chall... [{'name': 'meteor', 'value': 0.283411142234671... 0.283411 0.064516 0.597001 ... 3 The Bath-born player, 28, has made 36 appearan... Okay, let me summarize the key points from th... Newport Gwent Dragons number eight Ed Jackson ... Human: The Bath-born player, 28, has made 36 a... [{'name': 'meteor', 'value': 0.089020771513353... 0.089021 0.000000 0.533514 ... ...
모델 출력은 이전 샘플 출력과 다를 수 있습니다.
이 섹션에 제공된 코드 예제가 포함된 노트북은 bedrock-claude-summarization-accuracy.ipnyb
를 참조하세요.