Amazon Bedrock 모델의 텍스트 요약 정확도 평가 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Bedrock 모델의 텍스트 요약 정확도 평가

상위 수준 ModelRunner 래퍼를 사용하여 외부에서 호스팅되는 모델을 기반으로 사용자 지정 평가를 생성할 수 있습니다 JumpStart.

이 자습서에서는 Amazon Bedrock에서 사용할 수 있는 Anthropic Claude 2 모델을 로드하고 이 모델에 텍스트 프롬프트를 요약하도록 요청하는 방법을 보여줍니다. 그런 다음 이 자습서는 를 사용하여 모델 응답의 정확도를 평가하는 방법을 보여줍니다. Rouge-L, MeteorBERTScore 지표.

자습서에서는 다음을 수행하는 방법을 보여줍니다.

  • 환경을 설정합니다.

  • 모델 평가를 실행합니다.

  • 분석 결과를 봅니다.

환경을 설정합니다

사전 조건
Amazon Bedrock 설정

Amazon Bedrock 모델을 사용하려면 먼저 해당 모델에 대한 액세스를 요청해야 합니다.

  1. 에 로그인합니다 AWS 계정.

    1. AWS 계정이 없는 경우 Amazon Bedrock 설정AWS 계정 가입을 참조하세요.

  2. Amazon Bedrock 콘솔을 엽니다.

  3. 열리는 Amazon Bedrock에 오신 것을 환영합니다! 섹션에서 모델 액세스 관리 를 선택합니다.

  4. 표시되는 모델 액세스 섹션에서 모델 액세스 관리 를 선택합니다.

  5. 표시되는 기본 모델 섹션에서 모델Anthropic 하위 섹션에 나열된 Claude 옆에 있는 확인란을 선택합니다.

  6. 모델 액세스 요청 을 선택합니다.

  7. 요청이 성공하면 선택한 모델 옆의 액세스 상태 아래에 액세스 권한이 부여된 확인 표시가 나타나야 합니다.

  8. 모델에 액세스하려면 에 다시 로그인해야 AWS 계정 할 수 있습니다.

필수 라이브러리 설치
  1. 코드에 다음과 같이 fmevalboto3 라이브러리를 설치합니다.

    !pip install fmeval !pip3 install boto3==1.28.65
  2. 라이브러리를 가져오고, 병렬화 인수를 설정하고, 다음과 같이 Amazon Bedrock 클라이언트를 호출합니다.

    import boto3 import json import os # Dependent on available hardware and memory os.environ["PARALLELIZATION_FACTOR"] = "1" # Bedrock clients for model inference bedrock = boto3.client(service_name='bedrock') bedrock_runtime = boto3.client(service_name='bedrock-runtime')

    이전 코드 예제에서는 다음이 적용됩니다.

    • PARALLELIZATION_FACTOR - 컴퓨팅 인스턴스로 전송된 동시 배치 수의 승수입니다. 하드웨어가 병렬화를 허용하는 경우 이 숫자를 설정하여 평가 작업에 대한 호출 수를 곱할 수 있습니다. 예를 들어 100 호출이 있고 이 로 PARALLELIZATION_FACTOR 설정된 경우 2작업은 200 호출을 실행합니다. PARALLELIZATION_FACTOR 최대 까지 늘리10거나 변수를 완전히 제거할 수 있습니다. AWS Lambda의 사용 방식에 대한 블로그를 읽으려면 Kinesis 및 DynamoDB 이벤트 소스에 대한 새 Lambda 조정 제어를 PARALLELIZATION_FACTOR 참조하세요.

  3. 샘플 JSON Lines 데이터 세트인 sample-dataset.jsonl을 현재 작업 디렉터리에 다운로드합니다.

  4. 환경에 다음과 같이 샘플 입력 파일이 포함되어 있는지 확인합니다.

    import glob # Check for the built-in dataset if not glob.glob("sample-dataset.jsonl"): print("ERROR - please make sure file exists: sample-dataset.jsonl")
모델로 샘플 추론 요청 전송
  1. 모델과 프롬프트 MIME 유형을 정의합니다. Amazon Bedrock에서 호스팅되는 Anthropic Claude 2 모델의 경우 프롬프트는 다음과 같이 구성되어야 합니다.

    import json model_id = 'anthropic.claude-v2' accept = "application/json" contentType = "application/json" # Ensure that your prompt has the correct format prompt_data = """Human: Who is Barack Obama? Assistant: """

    요청 본문을 구성하는 방법에 대한 자세한 내용은 모델 호출 요청 본문 필드 단원을 참조하세요. 다른 모델의 형식은 다를 수 있습니다.

  2. 모델로 샘플 요청을 보냅니다. 요청 본문에는 프롬프트와 설정하려는 추가 파라미터가 포함되어 있습니다. 가 500 다음과 같이 max_tokens_to_sample 설정된 샘플 요청입니다.

    body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500}) response = bedrock_runtime.invoke_model( body=body, modelId=model_id, accept=accept, contentType=contentType ) response_body = json.loads(response.get("body").read()) print(response_body.get("completion"))

    이전 코드 예제에서는 다음 파라미터를 설정할 수 있습니다.

    • temperature - 생성된 텍스트의 무작위성을 제어하고 양수 값을 허용합니다. 값이 높을수록 모델에 더 무작위적이고 다양한 응답을 생성하도록 temperature 지시합니다. 값이 낮으면 예측 가능한 응답이 생성됩니다. 의 범위는 0 ~ temperature 사이1이며 기본값은 0.5입니다.

    • topP – 다음 토큰을 생성할 때 고려할 토큰 세트를 제한하여 무작위성을 제어합니다. 값이 높을수록 더 넓은 어휘가 포함된 세트가 topP 허용되고 값이 낮을수록 토큰 세트가 더 가능성이 높은 단어로 제한됩니다. 의 범위는 0 ~ 1이며 기본값topP은 입니다1.

    • topK - 모델 예측을 k 가장 가능성이 높은 토큰으로 제한합니다. 의 값이 높을수록 더 진보적인 응답이 topK 가능합니다. 값이 낮으면 일관성이 더 높은 응답이 생성됩니다. 의 범위는 0 ~이며 500기본값topK은 입니다250.

    • max_tokens_to_sample - 모델에서 반환되는 토큰 수를 제한하여 응답의 길이를 제한합니다. 의 범위는 0 ~이며 4096기본값max_tokens_to_sample은 입니다200.

    • stop_sequences - 모델에 응답 생성을 중지하도록 지시하는 문자 시퀀스 목록을 지정합니다. 모델 출력은 출력에서 나열된 문자열이 처음 발생하면 중지됩니다. 응답에는 중지 시퀀스가 포함되지 않습니다. 예를 들어 캐리지 반환 시퀀스를 사용하여 모델 응답을 한 줄로 제한할 수 있습니다. 최대 개의 4 중지 시퀀스를 구성할 수 있습니다.

    요청에서 지정할 수 있는 파라미터에 대한 자세한 내용은 Anthropic Claude 모델 섹션을 참조하세요.

설정 FMEval
  1. 다음과 FMEval 같이 실행하는 데 필요한 라이브러리를 로드합니다.

    from fmeval.data_loaders.data_config import DataConfig from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner from fmeval.constants import MIME_TYPE_JSONLINES from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy, SummarizationAccuracyConfig
  2. 입력 데이터 세트의 데이터 구성을 설정합니다.

    다음 샘플 입력은 의 한 줄입니다sample-dataset.jsonl.

    { "document": "23 October 2015 Last updated at 17:44 BST\nIt's the highest rating a tropical storm can get and is the first one of this magnitude to hit mainland Mexico since 1959.\nBut how are the categories decided and what do they mean? Newsround reporter Jenny Lawrence explains.", "summary": "Hurricane Patricia has been rated as a category 5 storm.", "id": "34615665", }

    이전 샘플 입력에는 document 키 내에 요약할 텍스트가 포함되어 있습니다. 모델 응답을 평가할 참조는 summary 키에 있습니다. 데이터 구성 내에서 이러한 키를 사용하여 모델 응답을 평가하는 데 FMEval 필요한 정보가 포함된 열을 지정해야 합니다.

    데이터 구성은 모델이 에 요약해야 하는 텍스트를 식별해야 합니다model_input_location. 를 사용하여 참조 값을 식별해야 합니다target_output_location.

    다음 데이터 구성 예제는 텍스트 요약 작업에 필요한 열, 이름, 균일한 리소스 식별자(URI) 및 MIME 유형을 지정하는 이전 입력 예제를 참조합니다.

    config = DataConfig( dataset_name="sample-dataset", dataset_uri="sample-dataset.jsonl", dataset_mime_type=MIME_TYPE_JSONLINES, model_input_location="document", target_output_location="summary" )

    다른 작업에 필요한 열 정보에 대한 자세한 내용은 의 사용자 지정 입력 데이터 세트 사용 섹션을 참조하세요자동 모델 평가.

  3. 다음 코드 예제와 ModelRunner 같이 사용자 지정을 설정합니다.

    bedrock_model_runner = BedrockModelRunner( model_id=model_id, output='completion', content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}' )

    이전 코드 예제에서는 다음을 지정합니다.

    • model_id – 모델을 지정하는 데 사용되는 ID입니다.

    • output - Anthropic Claude 2 모델에서 출력을 캡처하여 응답을 completion 키로 반환합니다.

    • content_template - 모델이 요청과 상호 작용하는 방식을 지정합니다. 예제 구성 템플릿은 이전 예제를 설명하기 위해서만 다음과 같이 자세히 설명되어 있으며 필수는 아닙니다.

      • 이전 content_template 예제에서는 다음이 적용됩니다.

        • 변수는 사용자의 요청을 캡처하는 입력 프롬프트를 prompt 지정합니다.

        • 변수는 응답 길이를 제한하기 500위해 최대 토큰 수를 로 max_tokens_to_sample 지정합니다.

          요청에서 지정할 수 있는 파라미터에 대한 자세한 내용은 Anthropic Claude 모델 섹션을 참조하세요.

        content_template 파라미터의 형식은 에서 지원하는 입력 및 파라미터에 따라 달라집니다LLM. 이 자습서에서 Anthropic의 Claude 2 모델은 다음을 사용합니다content_template.

        "content_template": "{\"prompt\": $prompt, \"max_tokens_to_sample\": 500}"

        또 다른 예로 Falcon 7b 모델은 다음을 지원할 수 있습니다content_template.

        "content_template": "{\"inputs\": $prompt, \"parameters\":{\"max_new_tokens\": \ 10, \"top_p\": 0.9, \"temperature\": 0.8}}"

모델 평가 실행

평가 알고리즘 정의 및 실행
  1. 평가 알고리즘을 정의합니다. 다음 예제에서는 텍스트 요약 작업의 정확도를 결정하는 데 사용되는 SummarizationAccuracy 알고리즘을 정의하는 방법을 보여줍니다.

    eval_algo = SummarizationAccuracy(SummarizationAccuracyConfig())

    다른 평가 작업에 대한 지표를 계산하는 알고리즘의 예는 의 모델 평가를 참조하세요fmeval 라이브러리를 사용하여 자동 평가 실행.

  2. 평가 알고리즘을 실행합니다. 다음 코드 예제에서는 이전에 정의한 데이터 구성과 HumanAssistant 키를 prompt_template 사용하는 를 사용합니다.

    eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config, prompt_template="Human: $feature\n\nAssistant:\n", save=True)

    이전 코드 예제에서 는 Amazon Bedrock 모델이 예상하는 형식으로 프롬프트를 feature 포함합니다.

분석 결과 보기

  1. 다음과 같이 평가 알고리즘에서 반환한 eval_output 객체에서 평가 보고서를 구문 분석합니다.

    # parse report print(json.dumps(eval_output, default=vars, indent=4))

    이전 명령은 다음 출력을 반환합니다.

    [ { "eval_name": "summarization_accuracy", "dataset_name": "sample-dataset", "dataset_scores": [ { "name": "meteor", "value": 0.2048823008681274 }, { "name": "rouge", "value": 0.03557697913367101 }, { "name": "bertscore", "value": 0.5406564395678671 } ], "prompt_template": "Human: $feature\n\nAssistant:\n", "category_scores": null, "output_path": "/tmp/eval_results/summarization_accuracy_sample_dataset.jsonl", "error": null } ]

    이전 예제 출력에는 세 가지 정확도 점수가 표시됩니다. Meteor, RougeBERTScore, 입력 prompt_template, 요청 category_score 시 , 오류 및 . output_path 다음 단계에서 output_path를 사용하여 Pandas DataFrame를 생성합니다.

  2. 결과를 가져와 로 읽고 다음과 같이 정확도 점수를 모델 입력, 모델 출력 및 대상 출력에 DataFrame연결합니다.

    import pandas as pd data = [] with open("/tmp/eval_results/summarization_accuracy_sample_dataset.jsonl", "r") as file: for line in file: data.append(json.loads(line)) df = pd.DataFrame(data) df['meteor_score'] = df['scores'].apply(lambda x: x[0]['value']) df['rouge_score'] = df['scores'].apply(lambda x: x[1]['value']) df['bert_score'] = df['scores'].apply(lambda x: x[2]['value']) df

    이 호출에서 이전 코드 예제는 다음 출력(간결성을 위해 계약됨)을 반환합니다.

    model_input model_output target_output prompt scores meteor_score rouge_score bert_score 0 John Edward Bates, formerly of Spalding, Linco... I cannot make any definitive judgments, as th... A former Lincolnshire Police officer carried o... Human: John Edward Bates, formerly of Spalding... [{'name': 'meteor', 'value': 0.112359550561797... 0.112360 0.000000 0.543234 ... 1 23 October 2015 Last updated at 17:44 BST\nIt'... Here are some key points about hurricane/trop... Hurricane Patricia has been rated as a categor... Human: 23 October 2015 Last updated at 17:44 B... [{'name': 'meteor', 'value': 0.139822692925566... 0.139823 0.017621 0.426529 ... 2 Ferrari appeared in a position to challenge un... Here are the key points from the article:\n\n... Lewis Hamilton stormed to pole position at the... Human: Ferrari appeared in a position to chall... [{'name': 'meteor', 'value': 0.283411142234671... 0.283411 0.064516 0.597001 ... 3 The Bath-born player, 28, has made 36 appearan... Okay, let me summarize the key points from th... Newport Gwent Dragons number eight Ed Jackson ... Human: The Bath-born player, 28, has made 36 a... [{'name': 'meteor', 'value': 0.089020771513353... 0.089021 0.000000 0.533514 ... ...

    모델 출력은 이전 샘플 출력과 다를 수 있습니다.

    이 섹션에 제공된 코드 예제가 포함된 노트북은 bedrock-claude-summarization-accuracy.ipnyb 를 참조하세요.