Amazon Bedrock에서 자동 모델 평가를 위해 내장된 프롬프트 데이터 세트를 사용하십시오.

Amazon Bedrock은 자동 모델 평가 작업에 사용할 수 있는 기본 제공 프롬프트 데이터 세트를 제공합니다. 각 기본 제공 데이터 세트는 오픈 소스 데이터 세트를 기반으로 합니다. 각 오픈 소스 데이터세트를 무작위로 다운샘플링하여 100개의 프롬프트만 포함하도록 했습니다.

자동 모델 평가 작업을 생성하고 작업 유형을 선택하면 Amazon Bedrock에서 권장 지표 목록을 제공합니다. Amazon Bedrock은 각 지표에 대해 권장되는 기본 제공 데이터 세트도 제공합니다. 사용 가능한 작업 유형에 대한 자세한 내용은 Amazon Bedrock의 모델 평가 작업 유형 섹션을 참조하세요.

개방형 언어 생성 데이터세트의 편견 () BOLD: 개방형 언어 생성 데이터셋의 편향 (BOLD) 은 직업, 성별, 인종, 종교 이념, 정치 이데올로기 등 다섯 가지 영역을 중심으로 일반 텍스트 생성의 공정성을 평가하는 데이터세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
RealToxicityPrompts: RealToxicityPrompts 독성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
T-Rex: 자연 언어와 지식 기반의 대규모 연계 () TREX: TREXWikipedia에서 추출한 지식 기반 트리플 () KBTs 으로 구성된 데이터 세트입니다. KBTs자연어 처리 (NLP) 및 지식 표현에 사용되는 데이터 구조 유형입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. Knowledge Base Triple (KBT) 의 예로는 “조지 워싱턴은 미국 대통령이었습니다.” 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.
WikiText2: WikiText2는 일반 텍스트 생성에 사용되는 프롬프트가 포함된 HuggingFace 데이터세트입니다.
Gigaword: Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성되어 있습니다. 이 데이터 세트는 텍스트 요약 작업에 사용됩니다.
BoolQ: BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터 세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터 세트는 질문 및 답변 작업 유형과 함께 사용하는 것이 좋습니다.
자연어 질문: 자연어 질문은 다음 주소로 제출된 실제 사용자 질문으로 구성된 데이터세트입니다.Google 검색.
TriviaQA: 트리비아 QA는 65만 개 이상의 데이터를 포함하는 데이터세트입니다. question-answer-evidence-triples 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.
전자 상거래에서 여성용 의류 리뷰: 전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터 세트입니다. 이 데이터 세트는 텍스트 분류 작업에 사용됩니다.

다음 표에는 작업 유형별로 그룹화된 사용 가능한 데이터 세트 목록이 나와 있습니다. 자동 지표 계산 방법에 대한 자세한 내용은 Amazon Bedrock의 자동 모델 평가 작업에 대한 지표 검토 (콘솔) 섹션을 참조하세요.

Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터 세트
작업 유형	지표	기본 제공 데이터 세트	계산된 지표
일반 텍스트 생성	정확도	TREX	실제 지식 () 점수 RWK
	견고성	BOLD	단어 오류 발생률
		TREX
		WikiText2
	유해성	RealToxicityPrompts	유해성
	유해성	BOLD	유해성
텍스트 요약	정확도	Gigaword	BERTScore
	유해성	Gigaword	유해성
	견고성	Gigaword	BERTScore그리고 deltaBERTScore
질문 및 답변	정확도	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	견고성	BoolQ	F1 및 deltaF1
		NaturalQuestions
		TriviaQA
	유해성	BoolQ	유해성
		NaturalQuestions
		TriviaQA
텍스트 분류	정확도	전자 상거래에서 여성용 의류 리뷰	정확도(classification_accuracy_score에 따른 이진 정확도)
텍스트 분류	견고성	전자 상거래에서 여성용 의류 리뷰	classification_accuracy_score 및 delta_classification_accuracy_score

사용자 지정 프롬프트 데이터 세트를 만들기 위한 요구 사항 및 예제에 대한 자세한 내용은 Amazon Bedrock에서 모델 평가를 위한 사용자 지정 프롬프트 데이터 세트 사용 섹션을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 평가를 위한 즉각적인 데이터세트

사용자 지정 프롬프트 데이터 세트