테이블 형식 데이터 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

테이블 형식 데이터

테이블 형식 데이터란 2차원의 데이터 프레임에 로드할 수 있는 데이터를 말합니다. 프레임에서 각 행은 레코드를 나타내며, 각 레코드에는 하나 이상의 열이 포함되어 있습니다. 데이터 프레임 셀 각각의 값은 숫자, 범주 또는 텍스트 데이터 유형일 수 있습니다.

테이블 형식 데이터 세트의 전제 조건

데이터 세트에는 분석에 앞서 필요한 사전 처리 단계들이 이미 적용되어 있어야 합니다. 여기에는 데이터 정리 또는 특징 엔지니어링이 포함됩니다.

데이터 세트는 하나 또는 여러 개 제공할 수 있습니다. 여러 데이터 세트를 제공하는 경우 다음을 사용하여 SageMaker Clarify 처리 작업에서 데이터 세트를 식별합니다.

  • ProcessingInput 명명된 dataset 또는 분석 구성을 사용하여 기본 데이터 세트를 dataset_uri 지정합니다. 에 대한 자세한 내용은 의 파라미터 목록을 dataset_uri참조하세요분석 구성 파일.

  • 분석 구성 파일에서 제공된 baseline매개변수를 사용합니다. SHAP 분석을 위해서는 기준 데이터 세트가 필요합니다. 예제를 포함하여 분석 구성 파일에 대한 자세한 내용은 섹션을 참조하세요분석 구성 파일.

다음 표에는 지원되는 데이터 형식, 파일 확장명 및 MIME 유형이 나열되어 있습니다.

데이터 형식 파일 확장명 MIME 유형

CSV

csv

text/csv

JSON 선

jsonl

application/jsonlines

JSON

json

application/json

PARQUET

parquet

"application/x-parquet"

다음 섹션에서는 CSV, JSON 행 및 Apache Parquet 형식의 테이블 형식 데이터 세트 예제를 보여줍니다.

SageMaker Clarify 처리 작업은 csv.excel 방언으로 CSV 데이터 파일을 로드하도록 설계되었습니다. 하지만 이는 \n\r을 비롯한 다른 라인 종결자도 유연하게 지원할 수 있습니다.

호환성을 위해 SageMaker Clarify 처리 작업에 제공된 모든 CSV 데이터 파일은 UTF-8로 인코딩되어야 합니다.

해당 데이터 세트에 헤더 행이 없는 경우, 다음을 수행합니다.

  • 분석 구성 레이블을 index 0으로 설정합니다. 이는 첫 번째 열이 실측 레이블임을 의미합니다.

  • 매개변수 headers가 설정된 경우, label을 레이블 열의 헤더로 설정하여 해당 레이블 열의 위치를 나타냅니다. 다른 모든 열은 특징으로 지정됩니다.

    다음은 헤더 행을 포함하고 있지 않은 데이터 세트의 예제입니다.

    1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

데이터에 헤더 행이 포함되어 있다면, 매개변수 label을 index 0으로 설정합니다. 레이블 열의 위치를 나타내려면 실측 레이블 헤더 Label을 사용하세요. 다른 모든 열은 특징으로 지정됩니다.

다음은 헤더 행을 포함하고 있는 데이터 세트의 예제입니다.

Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

JSON 는 모든 수준의 복잡성을 포함하는 구조화된 데이터를 나타내는 유연한 형식입니다. 에 대한 SageMaker Clarify 지원JSON은 특정 형식으로 제한되지 않으므로 CSV 또는 JSON 행 형식의 데이터 세트에 비해 더 유연한 데이터 형식을 허용합니다. 이 가이드에서는 JSON 형식의 테이블 형식 데이터에 대한 분석 구성을 설정하는 방법을 보여줍니다.

참고

호환성을 보장하려면 SageMaker Clarify 처리 작업에 제공된 모든 JSON 데이터 파일을 UTF-8로 인코딩해야 합니다.

다음은 상위 키, 특징 목록 및 레이블이 포함된 레코드가 있는 입력 데이터 예제입니다.

[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]

이전 입력 예제 데이터 세트에 대한 구성 분석 예제에서는 다음 매개변수가 설정되어야 합니다.

  • label 파라미터는 JMESPath 표현식을 사용하여 데이터 세트의 각 레코드에 대한 기본 진실 레이블을 [*].label 추출해야 합니다. 표현JMESPath식은 i번째 레이블이 i번째 레코드에 해당하는 레이블 목록을 생성해야 합니다.

  • features 파라미터는 JMESPath 표현식을 사용하여 데이터 세트의 각 레코드에 대한 특성 배열을 [*].features 추출해야 합니다. 표현JMESPath식은 i번째 행에 i번째 레코드에 해당하는 의 특성 값이 포함된 2D 배열 또는 매트릭스를 생성해야 합니다.

    다음은 상위 키 그리고 특징 목록 및 각 레코드의 레이블을 포함하는 중첩 키가 포함된 입력 데이터의 예제입니다.

{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }

이전 입력 예제 데이터 세트에 대한 구성 분석 예제에서는 다음 매개변수가 설정되어야 합니다.

  • label 파라미터는 JMESPath 표현식을 사용하여 데이터 세트의 각 레코드에 대한 기본 진실 레이블을 data[*].label 추출합니다. 표현JMESPath식은 i번째 레이블이 i번째 레코드인 레이블 목록을 생성해야 합니다.

  • features 파라미터는 표현JMESPath식을 사용하여 데이터 세트의 각 레코드에 대한 특성 배열을 data[*].features 추출합니다. 표현JMESPath식은 2D 배열 또는 행렬을 생성해야 합니다. 여기서 i번째 행에는 i번째 레코드의 특성 값이 포함됩니다.

JSON 행은 각 행이 유효한 JSON 객체인 구조화된 데이터를 나타내는 텍스트 형식입니다. 현재 SageMaker 처리 작업은 SageMaker 고밀도 형식 JSON 라인만 지원합니다. 필요한 형식을 따르려면 레코드의 모든 기능을 단일 JSON 배열로 나열해야 합니다. JSON 라인에 대한 자세한 내용은 섹션을 참조하세요JSONLINES 요청 형식.

참고

SageMaker Clarify 처리 작업에 제공된 모든 JSON 라인 데이터 파일은 호환성을 보장하기 위해 UTF-8로 인코딩되어야 합니다.

다음은 상위 키와 요소들의 목록을 포함하는 레코드에 대한 분석 구성을 설정하는 방법의 예제입니다.

{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...

이전 데이터 세트 예제에 대한 구성 분석에서는 매개변수가 다음과 같이 설정되어야 합니다.

  • 기본 진실 레이블의 위치를 표시하려면 파라미터를 JMESPath 표현식 로 설정해야 label 합니다label.

  • 특성 배열의 위치를 나타내려면 파라미터를 JMESPath 표현식 로 설정해야 features 합니다features.

다음은 상위 키 그리고 요소들의 목록이 있는 중첩 키를 포함하는 레코드에 대한 분석 구성을 설정하는 방법의 예제입니다.

{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...

이전 데이터 세트 예제에 대한 구성 분석에서는 매개변수가 다음과 같이 설정되어야 합니다.

  • 파라미터를 JMESPath 표현식으로 설정data.label하여 기본 진실 레이블의 위치를 나타내label야 합니다.

  • 파라미터는 특성 배열의 위치를 data.features 나타내는 JMESPath 표현식으로 설정되어야 features 합니다.

Parquet은 열 중심의 바이너리 데이터 형식입니다. 현재 SageMaker Clarify 처리 작업은 처리 인스턴스 수가 인 경우에만 Parquet 데이터 파일 로드를 지원합니다1.

SageMaker Clarify 처리 작업은 엔드포인트 요청 또는 엔드포인트 응답을 Parquet 형식으로 지원하지 않으므로 분석 구성 파라미터를 content_type 지원되는 형식으로 설정하여 엔드포인트 요청의 데이터 형식을 지정해야 합니다. 자세한 설명은 분석 구성 파일에서 content_type 섹션을 참조하십시오.

Parquet 데이터에는 문자열 형식으로 되어 있는 열 이름이 반드시 있어야 합니다. 분석 구성 label매개변수를 사용하여 실측 레이블의 위치를 나타내는 레이블 열 이름을 설정합니다. 다른 모든 열은 특징으로 지정됩니다.