분류자 API
분류자 API는 AWS Glue 분류자 데이터 유형에 대해 설명하며 분류자를 생성, 삭제, 업데이트 및 나열하기 위한 API를 포함합니다.
데이터 타입
분류자 구조
분류자는 크롤링 작업 중에 시작됩니다. 분류자는 지정된 파일이 처리할 수 있는 형식인지 여부를 확인합니다. 처리할 수 있는 형식인 경우, 분류자는 해당 데이터 형식과 일치하는 StructType
객체의 형태로 스키마를 생성합니다.
AWS Glue가 제공하는 스탠더드 분류자를 사용하거나 자체 분류자를 작성하여 데이터 원본을 분류하고 분류자를 고려해 사용할 적절한 스키마를 지정합니다. 분류자는 grok
분류자이거나, XML
분류자이거나, JSON
분류자이거나, Classifier
객체의 필드 중 하나에 지정된 사용자 지정 CSV
분류자일 수 있습니다.
필드
-
GrokClassifier
– GrokClassifier 객체입니다.grok
을 사용하는 분류자입니다. -
XMLClassifier
– XMLClassifier 객체입니다.XML 콘텐츠의 분류자입니다.
-
JsonClassifier
– JsonClassifier 객체입니다.JSON 콘텐츠의 분류자입니다.
-
CsvClassifier
– CsvClassifier 객체입니다.쉼표로 구분된 값(CSV)의 분류자입니다.
GrokClassifier 구조
grok
패턴을 사용하는 분류자입니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
Classification
– 필수(Required): UTF-8 문자열입니다.Twitter, JSON, Omniture 로그, 등과 같이 분류자가 일치하는 데이터 양식의 분류자입니다.
-
CreationTime
– 타임스탬프입니다.이 분류자가 등록된 시간입니다.
-
LastUpdated
– 타임스탬프입니다.이 분류자가 마지막으로 업데이트된 시간입니다.
-
Version
- 숫자(정수)입니다.이 분류자 버전
-
GrokPattern
– 필수(Required): A Logstash Grok string pattern과(와) 일치하는 1~2,048바이트 길이의 UTF-8 문자열입니다.이 분류자에 의해 grok 패턴이 데이터 스토어로 적용됩니다. 자세한 내용은 사용자 지정 분류자 작성에서 기본 설정 패턴을 참조하십시오.
-
CustomPatterns
– URI address multi-line string pattern과(와) 일치하는 16,000바이트 이하 길이의 UTF-8 문자열입니다.이 분류자가 정의한 조건부 사용자 지정 grok 패턴입니다. 자세한 내용은 사용자 지정 분류자 작성에서 사용자 지정 패턴을 참조하십시오.
XMLClassifier 구조
XML
내용의 분류자
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
Classification
– 필수(Required): UTF-8 문자열입니다.분류자가 일치하는 데이터 양식의 분류자입니다.
-
CreationTime
– 타임스탬프입니다.이 분류자가 등록된 시간입니다.
-
LastUpdated
– 타임스탬프입니다.이 분류자가 마지막으로 업데이트된 시간입니다.
-
Version
- 숫자(정수)입니다.이 분류자 버전
-
RowTag
– UTF-8 문자열입니다.각 기록을 구문 분석된 XML 문서에 포함하는 요소를 설계하는 XML 태그입니다. 이 태그는 자기 닫기 요소(
/>
에 의해 닫힌 요소)를 식별할 수 없습니다. 요소가 닫는 태그를 통해 종료되는 한 구문 분석된 속성만 포함하는 빈 행 요소입니다 (예를 들어,<row item_a="A" item_b="B"></row>
는 괜찮지만<row item_a="A" item_b="B" />
는 괜찮지 않습니다).
JsonClassifier 구조
JSON
내용의 분류자
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
CreationTime
– 타임스탬프입니다.이 분류자가 등록된 시간입니다.
-
LastUpdated
– 타임스탬프입니다.이 분류자가 마지막으로 업데이트된 시간입니다.
-
Version
- 숫자(정수)입니다.이 분류자 버전
-
JsonPath
– 필수(Required): UTF-8 문자열입니다.분류자가 분류할 JSON 데이터를 정의하는
JsonPath
문자열입니다. AWS Glue는 Writing JsonPath 사용자 정의 분류자 작성에 설명된 대로 JsonPath의 하위 집합을 지원합니다.
CsvClassifier 구조
사용자 지정 CSV
콘텐츠의 분류자입니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
CreationTime
– 타임스탬프입니다.이 분류자가 등록된 시간입니다.
-
LastUpdated
– 타임스탬프입니다.이 분류자가 마지막으로 업데이트된 시간입니다.
-
Version
- 숫자(정수)입니다.이 분류자 버전
-
Delimiter
– Custom string pattern #26과(와) 일치하는 1~1바이트 길이의 UTF-8 문자열입니다.행의 열 입력 항목 각각을 구분하는 것을 나타내기 위한 사용자 지정 기호입니다.
-
QuoteSymbol
– Custom string pattern #26과(와) 일치하는 1~1바이트 길이의 UTF-8 문자열입니다.단일 열 값에 내용을 결합하는 것을 나타내기 위한 사용자 지정 기호입니다. 열 구분 기호와 달라야 합니다.
-
ContainsHeader
– UTF-8 문자열입니다(유효 값:UNKNOWN
|PRESENT
|ABSENT
).CSV 파일에 헤더가 포함되어 있는지 여부를 나타냅니다.
-
Header
– UTF-8 문자열의 배열입니다.열 이름을 나타내는 문자열 목록입니다.
-
DisableValueTrimming
– 부울입니다.열 값의 유형을 식별하기 전에 값을 트리밍하지 않도록 지정합니다. 기본값은
true
입니다. -
AllowSingleColumn
– 부울입니다.오직 하나의 열만 포함하는 파일을 처리할 수 있도록 합니다.
-
CustomDatatypeConfigured
– 부울입니다.사용자 지정 데이터 유형을 구성할 수 있습니다.
-
CustomDatatypes
– UTF-8 문자열의 배열입니다.사용자 지정 데이터 유형 목록에는 “바이너리”, “부울”, “날짜”, “십진수”, “더블”, “플로트”, “INT”, “롱”, “쇼트”, “문자열”, “타임스탬프” 등이 포함됩니다.
-
Serde
– UTF-8 문자열입니다(유효한 값:OpenCSVSerDe
|LazySimpleSerDe
|None
).분류자에서 CSV를 처리하기 위한 Serde를 설정합니다. 이는 데이터 카탈로그에서 적용됩니다. 유효한 값은
OpenCSVSerDe
,LazySimpleSerDe
,None
입니다. 크롤러에서 감지하려는 경우None
값을 지정할 수 있습니다.
CreateGrokClassifierRequest 구조
생성할 CreateClassifier
를 위해 grok
분류자를 지정합니다.
필드
-
Classification
– 필수(Required): UTF-8 문자열입니다.Twitter, JSON, Omniture Logs, Amazon CloudWatch Logs 등과 같이 분류자가 일치하는 데이터 양식의 분류자입니다.
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.새로운 분류자의 이름입니다.
-
GrokPattern
– 필수(Required): A Logstash Grok string pattern과(와) 일치하는 1~2,048바이트 길이의 UTF-8 문자열입니다.이 분류자가 사용하는 grok 패턴입니다.
-
CustomPatterns
– URI address multi-line string pattern과(와) 일치하는 16,000바이트 이하 길이의 UTF-8 문자열입니다.이 분류자가 사용하는 조건부 사용자 지정 grok 패턴입니다.
UpdateGrokClassifierRequest 구조
UpdateClassifier
로 전달되면 업데이트될 grok 분류자를 지정합니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.GrokClassifier
의 이름입니다. -
Classification
– UTF-8 문자열입니다.Twitter, JSON, Omniture Logs, Amazon CloudWatch Logs 등과 같이 분류자가 일치하는 데이터 양식의 분류자입니다.
-
GrokPattern
– A Logstash Grok string pattern과(와) 일치하는 1~2,048바이트 길이의 UTF-8 문자열입니다.이 분류자가 사용하는 grok 패턴입니다.
-
CustomPatterns
– URI address multi-line string pattern과(와) 일치하는 16,000바이트 이하 길이의 UTF-8 문자열입니다.이 분류자가 사용하는 조건부 사용자 지정 grok 패턴입니다.
CreateXMLClassifierRequest 구조
생성할 CreateClassifier
를 위해 XML 분류자를 지정합니다.
필드
-
Classification
– 필수(Required): UTF-8 문자열입니다.분류자가 일치하는 데이터 양식의 분류자입니다.
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
RowTag
– UTF-8 문자열입니다.각 기록을 구문 분석된 XML 문서에 포함하는 요소를 설계하는 XML 태그입니다. 이 태그는 자기 닫기 요소(
/>
에 의해 닫힌 요소)를 식별할 수 없습니다. 요소가 닫는 태그를 통해 종료되는 한 구문 분석된 속성만 포함하는 빈 행 요소입니다 (예를 들어,<row item_a="A" item_b="B"></row>
는 괜찮지만<row item_a="A" item_b="B" />
는 괜찮지 않습니다).
UpdateXMLClassifierRequest 구조
업데이트될 XML 분류자를 지정합니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
Classification
– UTF-8 문자열입니다.분류자가 일치하는 데이터 양식의 분류자입니다.
-
RowTag
– UTF-8 문자열입니다.각 기록을 구문 분석된 XML 문서에 포함하는 요소를 설계하는 XML 태그입니다. 이 태그는 자기 닫기 요소(
/>
에 의해 닫힌 요소)를 식별할 수 없습니다. 요소가 닫는 태그를 통해 종료되는 한 구문 분석된 속성만 포함하는 빈 행 요소입니다 (예를 들어,<row item_a="A" item_b="B"></row>
는 괜찮지만<row item_a="A" item_b="B" />
는 괜찮지 않습니다).
CreateJsonClassifierRequest 구조
생성할 CreateClassifier
를 위해 JSON 분류자를 지정합니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
JsonPath
– 필수(Required): UTF-8 문자열입니다.분류자가 분류할 JSON 데이터를 정의하는
JsonPath
문자열입니다. AWS Glue는 Writing JsonPath 사용자 정의 분류자 작성에 설명된 대로 JsonPath의 하위 집합을 지원합니다.
UpdateJsonClassifierRequest 구조
업데이트될 JSON 분류자를 지정합니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
JsonPath
– UTF-8 문자열입니다.분류자가 분류할 JSON 데이터를 정의하는
JsonPath
문자열입니다. AWS Glue는 Writing JsonPath 사용자 정의 분류자 작성에 설명된 대로 JsonPath의 하위 집합을 지원합니다.
CreateCsvClassifierRequest 구조
생성할 CreateClassifier
를 위해 사용자 지정 CSV 분류자를 지정합니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
Delimiter
– Custom string pattern #26과(와) 일치하는 1~1바이트 길이의 UTF-8 문자열입니다.행의 열 입력 항목 각각을 구분하는 것을 나타내기 위한 사용자 지정 기호입니다.
-
QuoteSymbol
– Custom string pattern #26과(와) 일치하는 1~1바이트 길이의 UTF-8 문자열입니다.단일 열 값에 내용을 결합하는 것을 나타내기 위한 사용자 지정 기호입니다. 열 구분 기호와 달라야 합니다.
-
ContainsHeader
– UTF-8 문자열입니다(유효 값:UNKNOWN
|PRESENT
|ABSENT
).CSV 파일에 헤더가 포함되어 있는지 여부를 나타냅니다.
-
Header
– UTF-8 문자열의 배열입니다.열 이름을 나타내는 문자열 목록입니다.
-
DisableValueTrimming
– 부울입니다.열 값의 유형을 식별하기 전에 값을 트리밍하지 않도록 지정합니다. 기본값은 true입니다.
-
AllowSingleColumn
– 부울입니다.오직 하나의 열만 포함하는 파일을 처리할 수 있도록 합니다.
-
CustomDatatypeConfigured
– 부울입니다.사용자 지정 데이터 유형을 구성할 수 있습니다.
-
CustomDatatypes
– UTF-8 문자열의 배열입니다.지원되는 사용자 지정 데이터 유형 목록을 만듭니다.
-
Serde
– UTF-8 문자열입니다(유효한 값:OpenCSVSerDe
|LazySimpleSerDe
|None
).분류자에서 CSV를 처리하기 위한 Serde를 설정합니다. 이는 데이터 카탈로그에서 적용됩니다. 유효한 값은
OpenCSVSerDe
,LazySimpleSerDe
,None
입니다. 크롤러에서 감지하려는 경우None
값을 지정할 수 있습니다.
UpdateCsvClassifierRequest 구조
업데이트될 사용자 지정 CSV 분류자를 지정합니다.
필드
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.분류자의 이름입니다.
-
Delimiter
– Custom string pattern #26과(와) 일치하는 1~1바이트 길이의 UTF-8 문자열입니다.행의 열 입력 항목 각각을 구분하는 것을 나타내기 위한 사용자 지정 기호입니다.
-
QuoteSymbol
– Custom string pattern #26과(와) 일치하는 1~1바이트 길이의 UTF-8 문자열입니다.단일 열 값에 내용을 결합하는 것을 나타내기 위한 사용자 지정 기호입니다. 열 구분 기호와 달라야 합니다.
-
ContainsHeader
– UTF-8 문자열입니다(유효 값:UNKNOWN
|PRESENT
|ABSENT
).CSV 파일에 헤더가 포함되어 있는지 여부를 나타냅니다.
-
Header
– UTF-8 문자열의 배열입니다.열 이름을 나타내는 문자열 목록입니다.
-
DisableValueTrimming
– 부울입니다.열 값의 유형을 식별하기 전에 값을 트리밍하지 않도록 지정합니다. 기본값은 true입니다.
-
AllowSingleColumn
– 부울입니다.오직 하나의 열만 포함하는 파일을 처리할 수 있도록 합니다.
-
CustomDatatypeConfigured
– 부울입니다.사용자 지정 데이터 유형의 구성을 지정합니다.
-
CustomDatatypes
– UTF-8 문자열의 배열입니다.지원되는 사용자 지정 데이터 유형 목록을 지정합니다.
-
Serde
– UTF-8 문자열입니다(유효한 값:OpenCSVSerDe
|LazySimpleSerDe
|None
).분류자에서 CSV를 처리하기 위한 Serde를 설정합니다. 이는 데이터 카탈로그에서 적용됩니다. 유효한 값은
OpenCSVSerDe
,LazySimpleSerDe
,None
입니다. 크롤러에서 감지하려는 경우None
값을 지정할 수 있습니다.
운영
CreateClassifier 작업(Python: create_classifier)
사용자 계정에 분류자를 만듭니다. 이 분류자는 어떤 요청 필드가 존재하는지에 따라 GrokClassifier
, XMLClassifier
, JsonClassifier
또는 CsvClassifier
일 수 있습니다.
요청
-
GrokClassifier
– CreateGrokClassifierRequest 객체입니다.GrokClassifier
객체는 생성할 분류자를 지정합니다. -
XMLClassifier
– CreateXMLClassifierRequest 객체입니다.XMLClassifier
객체는 생성할 분류자를 지정합니다. -
JsonClassifier
– CreateJsonClassifierRequest 객체입니다.JsonClassifier
객체는 생성할 분류자를 지정합니다. -
CsvClassifier
– CreateCsvClassifierRequest 객체입니다.CsvClassifier
객체는 생성할 분류자를 지정합니다.
응답
무응답 파라미터.
오류
AlreadyExistsException
InvalidInputException
OperationTimeoutException
DeleteClassifier 작업(Python: delete_classifier)
데이터 카탈로그에서 분류자를 제거합니다.
요청
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.제거할 분류자의 이름입니다.
응답
무응답 파라미터.
오류
EntityNotFoundException
OperationTimeoutException
GetClassifier 작업(Python: get_classifier)
이름에 따라 분류자를 검색합니다.
요청
-
Name
– 필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.검색할 분류자의 이름입니다.
응답
-
Classifier
– 분류자 객체입니다.요청된 분류자
오류
EntityNotFoundException
OperationTimeoutException
GetClassifiers 작업(Python: get_classifiers)
데이터 카탈로그에서 분류자 객체를 열거합니다.
요청
-
MaxResults
– 1~1,000의 숫자(정수)입니다.반환할 목록의 크기(선택 사항)입니다.
-
NextToken
– UTF-8 문자열입니다.연속 토큰(선택 사항).
응답
-
Classifiers
– 분류자 객체의 배열입니다.분류자 객체의 요청한 목록입니다.
-
NextToken
– UTF-8 문자열입니다.연속 토큰
오류
OperationTimeoutException
UpdateClassifier 작업(Python: update_classifier)
기존 분류자(어떤 필드가 존재하는지에 따라 GrokClassifier
, XMLClassifier
, JsonClassifier
또는 CsvClassifier
분류자)를 수정합니다.
요청
-
GrokClassifier
– UpdateGrokClassifierRequest 객체입니다.업데이트도니 필드와
GrokClassifier
객체. -
XMLClassifier
– UpdateXMLClassifierRequest 객체입니다.업데이트도니 필드와
XMLClassifier
객체. -
JsonClassifier
– UpdateJsonClassifierRequest 객체입니다.업데이트도니 필드와
JsonClassifier
객체. -
CsvClassifier
– UpdateCsvClassifierRequest 객체입니다.업데이트도니 필드와
CsvClassifier
객체.
응답
무응답 파라미터.
오류
InvalidInputException
VersionMismatchException
EntityNotFoundException
OperationTimeoutException