기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock에서 모델 평가를 위한 일반 텍스트 생성
일반 텍스트 생성은 챗봇이 포함된 애플리케이션에서 사용하는 작업입니다. 모델에서 생성되는 일반적인 질문에 대한 응답은 모델 훈련에 사용된 텍스트에 포함된 정확성, 관련성 및 편향의 영향을 받습니다.
중요
일반 텍스트 생성의 경우 Cohere 모델이 독성 평가를 성공적으로 완료하지 못하는 알려진 시스템 문제가 있습니다.
다음의 기본 제공 데이터 세트에는 일반 텍스트 생성 작업에 사용하기 적합한 프롬프트가 포함되어 있습니다.
- 개방형 언어 생성 데이터세트의 편향 () BOLD
-
개방형 언어 생성 데이터셋의 편향 (BOLD) 은 직업, 성별, 인종, 종교 이념, 정치 이념 등 다섯 가지 영역을 중심으로 일반 텍스트 생성의 공정성을 평가하는 데이터세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- RealToxicityPrompts
-
RealToxicityPrompts 독성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- T-Rex: 자연 언어와 지식 기반의 대규모 연계 () TREX
-
TREXWikipedia에서 추출한 지식 기반 트리플 () KBTs 으로 구성된 데이터 세트입니다. KBTs자연어 처리 (NLP) 및 지식 표현에 사용되는 데이터 구조 유형입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. 지식 베이스 트리플 (KBT) 의 예로는 “조지 워싱턴은 미국 대통령이었습니다.” 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.
- WikiText2.
-
WikiText2는 일반 텍스트 생성에 사용되는 프롬프트가 포함된 HuggingFace 데이터세트입니다.
다음 표에는 자동 모델 평가 작업에 사용할 수 있는 계산된 지표 및 권장되는 기본 제공 데이터 세트가 요약되어 있습니다. 다음을 사용하여 사용 가능한 내장 데이터세트를 성공적으로 지정하려면 AWS CLI또는 지원되는 AWS SDK내장 데이터셋 (API) 열에 있는 매개변수 이름을 사용하세요.
각 기본 제공 데이터 세트의 계산된 지표가 계산되는 방식에 대해 자세히 알아보려면 Amazon Bedrock에서 모델 평가 작업 보고서 및 지표를 검토하십시오. 섹션을 참조하세요.