데이터 흐름 만들기 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 흐름 만들기

SageMaker Canvas의 데이터 랭글러 흐름 또는 데이터 흐름을 사용하여 데이터 준비 파이프라인을 만들고 수정하세요. 5GB보다 큰 데이터셋에는 데이터 랭글러를 사용하는 것이 좋습니다.

시작하려면 다음 절차를 사용하여 데이터를 데이터 흐름으로 가져오세요.

  1. SageMaker 캔버스를 엽니다.

  2. 왼쪽 탐색 창에서 데이터 랭글러를 선택합니다.

  3. [가져오기 및 준비] 를 선택합니다.

  4. 드롭다운 메뉴에서 표 형식 또는 이미지를 선택합니다.

  5. 데이터 원본 선택에서 데이터 원본을 선택하고 가져오려는 데이터를 선택합니다. 최대 30개의 파일 또는 1개의 폴더를 선택할 수 있습니다. 이미 Canvas로 가져온 데이터셋이 있는 경우 Canvas 데이터세트를 소스로 선택하세요. 그렇지 않으면 Amazon S3 또는 Snowflake와 같은 데이터 소스에 연결하여 데이터를 탐색하십시오. 데이터 소스에 연결하거나 데이터를 가져오는 방법에 대한 자세한 내용은 다음 페이지를 참조하십시오.

  6. 가져오려는 데이터를 선택한 후 다음을 선택합니다.

  7. (선택 사항) 표 형식 데이터셋을 가져올 때 설정 가져오기 섹션의 고급 드롭다운 메뉴를 확장합니다. 데이터 흐름 가져오기에 대해 다음과 같은 고급 설정을 지정할 수 있습니다.

    • 샘플링 방법 - 사용하려는 샘플링 방법과 샘플 크기를 선택합니다. 표본 변경 방법에 대한 자세한 내용은 섹션을 참조하십시오데이터 흐름 샘플링 구성을 편집합니다..

    • 파일 인코딩 (CSV) — 데이터세트 파일의 인코딩을 선택합니다. UTF-8기본값입니다.

    • 첫 행 건너뛰기 — 데이터세트 시작 부분에 중복된 행이 있는 경우 가져오기를 건너뛰고 싶은 행 수를 입력합니다.

    • 구분자 — 데이터의 각 항목을 구분하는 구분자를 선택합니다. 사용자 지정 구분자를 지정할 수도 있습니다.

    • 여러 줄 감지 — Canvas에서 여러 줄 셀의 전체 데이터세트를 수동으로 분석하도록 하려면 이 옵션을 선택하세요. Canvas는 데이터 샘플을 수집하여 여러 줄 지원을 사용할지 여부를 결정하지만 Canvas는 샘플에서 여러 줄 셀을 감지하지 못할 수 있습니다. 이 경우 여러 줄 감지 옵션을 선택하여 Canvas가 전체 데이터세트에서 여러 줄 셀을 검사하도록 강제하는 것이 좋습니다.

  8. 가져오기를 선택합니다.

이제 새 데이터 흐름이 생성되었으므로 변환 단계 및 분석을 추가할 수 있습니다.