일치 항목 찾기 변환 교육 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

일치 항목 찾기 변환 교육

FindMatches 변환에 일치로 간주해야 하는 사항과 일치로 간주하지 말아야 하는 사항을 교육해야 합니다. 파일에 레이블을 추가하고 AWS Glue에 선택 사항을 업로드하여 변환을 교육합니다.

AWS Glue 콘솔에서 또는 AWS Glue 기계 학습 API 작업을 사용하여 이 레이블 지정을 조정할 수 있습니다.

레이블을 몇 번 추가해야 하나요? 몇 개의 레이블이 필요하나요?

이러한 질문에 대한 답은 거의 사용자에게 달려 있습니다. FindMatches가 필요한 정확도 수준을 제공하는지 여부와 추가 레이블 지정 노력이 가치 있다고 생각하는지 여부를 평가해야 합니다. 이를 결정하는 가장 좋은 방법은 AWS Glue 콘솔에서 [품질 평가(Estimate quality)]를 선택할 때 생성할 수 있는 "정밀도", "재현율" 및 "정밀도 재현율 곡선 아래 영역" 지표를 살펴보는 것입니다. 더 많은 작업 세트에 레이블을 지정한 후 이러한 지표를 다시 실행하고 개선되었는지 확인합니다. 작업 세트 몇 개에 레이블을 지정한 후 초점을 둔 지표에 개선이 보이지 않는 경우, 변환 품질이 정체 상태에 도달했을 수 있습니다.

참 긍정과 참 부정 레이블이 모두 필요한 이유는 무엇인가요?

FindMatches 변환은 사용자가 일치한다고 생각하는 항목을 학습하려면 긍정과 부정 예가 모두 필요합니다. FindMatches에서 생성하는 훈련 데이터에 레이블을 지정하는 경우(예: I do not have labels(레이블이 없음) 옵션 사용), FindMatches는 “레이블 세트 ID” 세트를 생성하려고 시도합니다. 각 작업 내에서 일부 레코드에는 동일한 “레이블”을, 다른 레코드에는 다른 “레이블”을 제공합니다. 다시 말해 이 작업은 일반적으로 모두 동일하지도 모두 다르지도 않습니다(그러나 특정 작업이 모두 “동일”하거나 모두 “동일하지 않은” 경우는 괜찮음).

[S3에서 레이블 업로드(Upload labels from S3)] 옵션을 사용하여 FindMatches 변환을 가르치는 경우 일치하는 레코드와 일치하지 않는 레코드의 예를 모두 포함합니다. 한 유형만 사용할 수 있습니다. 이러한 레이블을 사용하면 더 정확한 FindMatches 변환을 구축할 수 있지만, Generate labeling file(레이블 지정 파일 생성) 옵션을 사용하여 생성하는 일부 레코드에 레이블을 지정해야 합니다.

변환을 교육할 때 변환이 정확히 일치하도록 강제할 수 있나요?

FindMatches 변환은 사용자가 제공하는 레이블에서 학습하므로, 제공된 레이블을 따르지 않는 레코드 페어를 생성할 수 있습니다. FindMatches 변환이 레이블을 따르도록 하려면 FindMatchesParameter에서 EnforceProvidedLabels를 선택합니다.

ML 변환이 항목을 참이 아닌 일치 항목으로 식별하는 경우 어떤 기술을 사용할 수 있나요?

다음과 같은 기술을 사용할 수 있습니다.

  • precisionRecallTradeoff을 더 큰 값으로 높입니다. 그러면 결국 더 적은 일치 항목을 찾게 되지만, 충분히 높은 값에 도달하면 큰 클러스터를 분리해야 합니다.

  • 잘못된 결과에 해당하는 출력 행을 가져와서 레이블 지정 세트로 다시 포맷합니다(match_id 열을 제거하고, labeling_set_idlabel 열 추가). 필요한 경우 여러 레이블 지정 세트로 분리(세분화)하여 레이블러가 레이블을 할당하는 동안 각 레이블 지정 세트를 염두에 둘 수 있도록 합니다. 그런 다음 일치하는 세트에 올바르게 레이블을 지정하고 레이블 파일을 업로드한 후 기존 레이블에 추가합니다. 그러면 패턴을 이해하기 위해 찾고 있는 사항에 대해 변환기를 충분히 교육할 수 있습니다.

  • (고급) 마지막으로 데이터를 보고 시스템이 알아채지 못하고 있음을 감지할 수 있는 패턴이 있는지 확인합니다. 표준 AWS Glue 함수를 사용해 해당 데이터를 사전 처리하여 데이터를 정규화합니다. 중요한 데이터를 자체 열로 따로 분리하여 알고리즘이 학습하도록 할 내용을 강조 표시합니다. 또는 관련된 데이터가 있는 열에서 결합된 열을 생성합니다.