기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock에서 자동 모델 평가를 위해 내장된 프롬프트 데이터 세트를 사용하십시오.
Amazon Bedrock은 자동 모델 평가 작업에 사용할 수 있는 기본 제공 프롬프트 데이터 세트를 제공합니다. 각 기본 제공 데이터 세트는 오픈 소스 데이터 세트를 기반으로 합니다. 각 오픈 소스 데이터세트를 무작위로 다운샘플링하여 100개의 프롬프트만 포함하도록 했습니다.
자동 모델 평가 작업을 생성하고 작업 유형을 선택하면 Amazon Bedrock에서 권장 지표 목록을 제공합니다. Amazon Bedrock은 각 지표에 대해 권장되는 기본 제공 데이터 세트도 제공합니다. 사용 가능한 작업 유형에 대한 자세한 내용은 Amazon Bedrock의 모델 평가 작업 유형 섹션을 참조하세요.
- 개방형 언어 생성 데이터세트의 편견 () BOLD
-
개방형 언어 생성 데이터셋의 편향 (BOLD) 은 직업, 성별, 인종, 종교 이념, 정치 이데올로기 등 다섯 가지 영역을 중심으로 일반 텍스트 생성의 공정성을 평가하는 데이터세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- RealToxicityPrompts
-
RealToxicityPrompts 독성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- T-Rex: 자연 언어와 지식 기반의 대규모 연계 () TREX
-
TREXWikipedia에서 추출한 지식 기반 트리플 () KBTs 으로 구성된 데이터 세트입니다. KBTs자연어 처리 (NLP) 및 지식 표현에 사용되는 데이터 구조 유형입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. Knowledge Base Triple (KBT) 의 예로는 “조지 워싱턴은 미국 대통령이었습니다.” 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.
- WikiText2
-
WikiText2는 일반 텍스트 생성에 사용되는 프롬프트가 포함된 HuggingFace 데이터세트입니다.
- Gigaword
-
Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성되어 있습니다. 이 데이터 세트는 텍스트 요약 작업에 사용됩니다.
- BoolQ
-
BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터 세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터 세트는 질문 및 답변 작업 유형과 함께 사용하는 것이 좋습니다.
- 자연어 질문
-
자연어 질문은 다음 주소로 제출된 실제 사용자 질문으로 구성된 데이터세트입니다.Google 검색.
- TriviaQA
-
트리비아 QA는 65만 개 이상의 데이터를 포함하는 데이터세트입니다. question-answer-evidence-triples 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.
- 전자 상거래에서 여성용 의류 리뷰
-
전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터 세트입니다. 이 데이터 세트는 텍스트 분류 작업에 사용됩니다.
다음 표에는 작업 유형별로 그룹화된 사용 가능한 데이터 세트 목록이 나와 있습니다. 자동 지표 계산 방법에 대한 자세한 내용은 Amazon Bedrock의 자동 모델 평가 작업에 대한 지표 검토 (콘솔) 섹션을 참조하세요.
Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터 세트 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
작업 유형 | 지표 | 기본 제공 데이터 세트 | 계산된 지표 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
일반 텍스트 생성 | 정확도 | TREX |
실제 지식 () 점수 RWK | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | 단어 오류 발생률 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TREX |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
WikiText2 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
유해성 | 유해성 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BOLD |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
텍스트 요약 | 정확도 | Gigaword |
BERTScore | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
유해성 | Gigaword |
유해성 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | Gigaword |
BERTScore그리고 deltaBERTScore | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
질문 및 답변 | 정확도 | BoolQ |
NLP-F1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | BoolQ |
F1 및 deltaF1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
유해성 | BoolQ |
유해성 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
텍스트 분류 | 정확도 | 전자 상거래에서 여성용 의류 리뷰 |
정확도(classification_accuracy_score에 따른 이진 정확도) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | 전자 상거래에서 여성용 의류 리뷰 |
classification_accuracy_score 및 delta_classification_accuracy_score |
사용자 지정 프롬프트 데이터 세트를 만들기 위한 요구 사항 및 예제에 대한 자세한 내용은 Amazon Bedrock에서 모델 평가를 위한 사용자 지정 프롬프트 데이터 세트 사용 섹션을 참조하세요.