기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
BDA는 특정 요구 사항에 따라 추출된 데이터를 변환하고 표준화할 수 있는 정규화 기능을 제공합니다. 이러한 정규화 작업은 키 정규화 및 값 정규화로 분류할 수 있습니다.
키 정규화
대부분의 경우 문서 필드는 표현되거나 레이블이 지정되는 방식에 차이가 있을 수 있습니다. 예를 들어 "사회보장번호" 필드는 "SSN", "세금 ID", "TIN" 또는 기타 유사한 변형으로 표시될 수 있습니다. 이 문제를 해결하기 위해 BDA는 키 정규화를 제공하므로 필드 정의 내의 변형에 대한 지침을 제공할 수 있습니다.
키 정규화를 활용하여 BDA가 동일한 필드의 다양한 표현을 인식하고 표준화된 키에 매핑하도록 안내할 수 있습니다. 이 기능을 사용하면 소스 문서에 있는 변형과 관계없이 데이터를 일관되게 추출하고 구성할 수 있습니다.
필드 | 지침 | 추출 유형 | 유형 |
---|---|---|---|
LastName |
사람의 성 |
명시적 |
String |
BirthNum |
출생 증명서의 문서 번호 또는 파일 번호 |
명시적 |
String |
OtherIncome |
연방 및 주 휘발유 또는 연료 세금 공제 또는 환급을 포함한 기타 소득 |
명시적 |
숫자 |
BusinessName |
W9를 채우는 사업체, 계약업체 또는 법인의 이름 |
명시적 |
String |
역률 |
이 사용량 항목에 사용되는 역률 또는 승수 |
명시적 |
String |
BirthPlace |
아이가 태어난 병원 또는 기관의 이름 |
명시적 |
String |
부상 원인 |
작동 방식을 포함한 부상 또는 직업병의 원인 |
명시적 |
String |
미리 정의된 값 세트 또는 열거가 있는 필드의 경우 필드 명령 내에서 예상 값 또는 범위를 제공할 수 있습니다. 예제와 같이 따옴표의 변형을 포함하는 것이 좋습니다.
필드 | 지침 | 추출 유형 | 유형 |
---|---|---|---|
LICENSE_CLASS |
"A", "B" 또는 "C" 중 하나인 단일 문자 클래스 코드 |
명시적 |
String |
성별 |
성별입니다. "M" 또는 "F" 중 하나 |
명시적 |
String |
InformantType |
정보의 유형입니다. "부모" 또는 "기타" 중 하나 |
명시적 |
String |
정보 수집 채널 |
'대면 인터뷰', '전화 인터뷰', '팩스 또는 우편', '이메일 또는 인터넷' 중 하나 |
명시적 |
String |
값 정규화
가치 정규화는 추출된 데이터를 일관되고 표준화된 형식으로 변환해야 하는 데이터 처리 파이프라인의 주요 작업입니다. 이 프로세스를 통해 다운스트림 시스템이 호환성 문제나 모호함 없이 데이터를 원활하게 사용하고 처리할 수 있습니다.
BDA에서 정규화 기능을 사용하면 형식을 표준화하고 측정 단위 및 캐스트 값을 특정 데이터 유형으로 변환할 수 있습니다.
값 정규화 작업의 경우 값이 정규화된 후 문서의 원시 텍스트 또는 OCR과 정확히 일치하지 않을 수 있으므로 추론된 추출 유형을 사용해야 합니다. 예를 들어 'YYYY-MM-DD' 형식의를 사용해야 하는 '06/25/2022'과 같은 날짜 값은 정규화 후 '2022-06-25'로 추출되므로 문서의 OCR 출력과 일치하지 않습니다.
형식 표준화: 값을 단축 코드, 번호 체계 또는 특정 날짜 형식과 같은 사전 정의된 형식으로 변환할 수 있습니다. 이를 통해 업계 표준 또는 조직 규칙을 준수하여 데이터 표현의 일관성을 보장할 수 있습니다.
필드 | 지침 | 추출 유형 | 유형 |
---|---|---|---|
ssn |
XXX-XX-XXX 형식의 SSN |
추론됨 |
String |
STATE |
상태의 두 문자 코드 |
추론됨 |
String |
만료_날짜 |
YYYY-MM-DD 형식의 만료 날짜 |
추론됨 |
String |
DATE_OF_BIRTH |
YYYY-MM-DD 형식의 드라이버 생년월일 |
추론됨 |
String |
CHECK_DATE |
검사에 서명한 날짜입니다. YYYY-MM-DD로 형식 변경 |
추론됨 |
String |
PurchaseDate |
mm/dd/yy 형식의 차량 구매 날짜 |
추론됨 |
String |
해당 없음과 같은 시나리오를 처리하여 값을 표준 측정 단위 또는 특정 데이터 유형으로 변환할 수도 있습니다.
필드 | 지침 | 추출 유형 | 유형 |
---|---|---|---|
가중치 |
무게를 파운드로 변환 |
추론됨 |
숫자 |
높이 |
높이를 인치로 변환 |
추론됨 |
숫자 |
nonqualified_plans_income |
필드 11의 값입니다. N/A인 경우 0입니다. |
추론됨 |
숫자 |