기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
데이터 흐름 샘플링 구성 편집
테이블 형식의 데이터를 Data Wrangler 데이터 흐름으로 가져올 때 데이터 세트 샘플을 가져와 데이터 탐색 및 정리 프로세스를 가속화할 수 있습니다. 데이터 세트 샘플에서 탐색 변환을 실행하는 것은 전체 데이터 세트에서 변환을 실행하는 것보다 빠른 경우가 많으며, 데이터 세트를 내보내고 모델을 빌드할 준비가 되면 전체 데이터 세트에 변환을 적용할 수 있습니다.
Canvas는 다음과 같은 샘플링 방법을 지원합니다.
FirstK – Canvas는 데이터 세트에서 첫 번째 K 항목을 선택합니다. 여기서 K는 지정한 숫자입니다. 이 샘플링 방법은 간단하지만 데이터 세트가 무작위로 정렬되지 않은 경우 편향이 발생할 수 있습니다.
무작위 - Canvas는 무작위로 데이터 세트에서 항목을 선택하며, 각 항목은 선택될 확률이 동일합니다. 이 샘플링 방법은 샘플이 전체 데이터 세트를 나타내는지 확인하는 데 도움이 됩니다.
계층화 - Canvas는 하나 이상의 속성(예: 연령 및 소득 수준)을 기반으로 데이터 세트를 그룹(또는 계층)으로 나눕니다. 그런 다음 각 그룹에서 비례 항목 수가 무작위로 선택됩니다. 이 방법은 모든 관련 하위 그룹이 샘플에 적절하게 표현되도록 합니다.
언제든지 샘플링 구성을 편집하여 데이터 탐색에 사용되는 샘플의 크기를 변경할 수 있습니다.
샘플링 구성을 변경하려면 다음을 수행합니다.
데이터 흐름 그래프에서 데이터 소스 노드를 선택합니다.
하단 탐색 모음에서 샘플링을 선택합니다.
샘플링 대화 상자가 열립니다. 샘플링 방법 드롭다운에서 원하는 샘플링 방법을 선택합니다.
최대 샘플 크기 에 샘플링할 행 수를 입력합니다.
업데이트를 선택하여 변경 사항을 저장합니다.
이제 샘플링 구성에 대한 변경 사항이 적용되어야 합니다.