타사 입력 데이터 준비 - AWS Entity Resolution

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

타사 입력 데이터 준비

타사 데이터 서비스는 알려진 식별자와 일치할 수 있는 식별자를 제공합니다.

AWS Entity Resolution 현재 다음과 같은 타사 데이터 제공자 서비스를 지원합니다.

데이터 제공자 서비스
회사 이름 사용 가능 AWS 리전 식별자
LiveRamp 미국 동부 (버지니아 북부) (us-east-1), 미국 동부 (오하이오) (us-east-2) 및 미국 서부 (오레곤) (us-west-2) 램프 ID
TransUnion 미국 동부 (버지니아 북부) (us-east-1), 미국 동부 (오하이오) (us-east-2) 및 미국 서부 (오레곤) (us-west-2) TransUnion 개인 및 가구 IDs
유니파이드 ID 2.0 미국 동부 (버지니아 북부) (us-east-1), 미국 동부 (오하이오) (us-east-2) 및 미국 서부 (오레곤) (us-west-2) 로우 2 UID

다음 단계는 공급자 서비스 기반 매칭 워크플로 또는 제공자 서비스 기반 ID 매핑 워크플로를 사용하기 위해 타사 데이터를 준비하는 방법을 설명합니다.

1단계: 에서 제공자 서비스를 구독하십시오. AWS Data Exchange

를 통해 제공자 서비스에 가입한 경우 AWS Data Exchange다음 제공업체 서비스 중 하나를 사용하여 매칭 워크플로를 실행하여 알려진 식별자를 선호하는 제공자와 매칭할 수 있습니다. 데이터는 선호하는 제공자가 정의한 입력 세트와 매칭됩니다.

제공자 서비스를 구독하려면: AWS Data Exchange

  1. 제공자 목록 보기: AWS Data Exchange. 다음과 같은 제공자 목록을 사용할 수 있습니다.

  2. 제안 유형에 따라 다음 단계 중 하나를 완료하십시오.

    • 비공개 제안 — 공급자와 기존 관계가 있는 경우 해당 공급자의 비공개 제품 및 제안 절차를 따르십시오. AWS Data Exchange 비공개 오퍼 수락을 위한 사용자 가이드 AWS Data Exchange.

    • 자체 구독 가져오기 — 제공업체의 기존 데이터 구독을 이미 보유하고 있는 경우, 구독하기 (BYOS) 제안 절차를 따르십시오. AWS Data Exchange BYOS제안 수락을 위한 사용자 가이드 AWS Data Exchange.

  3. 제공자 서비스에 가입한 후 AWS Data Exchange그런 다음 해당 제공자 서비스와 일치하는 워크플로 또는 ID 매핑 워크플로를 만들 수 있습니다.

가 포함된 APIs 공급업체 제품에 액세스하는 방법에 대한 자세한 내용은 의 API 제품 액세스를 참조하십시오. AWS Data Exchange 사용 설명서.

2단계: 타사 데이터 테이블 준비

각 타사 서비스에는 성공적인 매칭 워크플로를 보장하는 데 도움이 되는 다양한 권장 사항 및 지침이 있습니다.

타사 데이터 테이블을 준비하려면 다음 표를 참조하십시오.

데이터 제공업체 서비스 지침
프로바이더 서비스 고유 ID가 필요한가요? 작업
LiveRamp

다음 사항을 확인하세요.

  • 고유 ID는 사용자 고유의 익명 식별자 또는 행 ID일 수 있습니다.

  • 데이터 입력 파일 형식 및 정규화는 가이드라인에 따라 조정됩니다. LiveRamp

    매칭 워크플로의 입력 파일 형식 지정 지침에 대한 자세한 내용은 설명서의 LiveRamp ID 확인 수행을 ADX 참조하십시오.

    ID 매핑 워크플로의 입력 파일 형식 지정 지침에 대한 자세한 내용은 LiveRamp 설명서의 트랜스코딩 수행을 ADX 참조하십시오.

TransUnion

다음 사항을 확인하십시오.

  • TransUnion 데이터 강화를 위한 고유 ID가 존재합니다.

    참고

    전달 속성은 입력 및 출력에서 계속 유지될 수 있습니다. TransUnion 가정용 E 키는 클라이언트 네임스페이스에만 HHID 해당됩니다.

  • Phone number공백이나 하이픈과 같은 특수 문자를 제외하고 10자리 숫자여야 합니다.

  • Addresses다음과 같이 분할해야 합니다.

    • 단일 주소 라인 (있는 경우 주소 라인 1과 2 결합)

    • 구/군/시

    • 공백이나 하이픈과 같은 특수 문자가 없는 zip (또는 zip+4)

    • 상태, 2문자 코드 3으로 지정됩니다.

  • Email addresses일반 텍스트여야 합니다.

  • First Name소문자나 대문자일 수 있으며 닉네임은 지원되지만 제목과 접미사는 제외해야 합니다.

  • Last Name소문자나 대문자일 수 있으며, 중간 이니셜은 제외됩니다.

통합 ID 2.0

다음 사항을 확인하십시오.

  • 고유 ID는 해시가 될 수 없습니다.

  • UID2UID2생성을 위해 이메일과 전화번호를 모두 지원합니다. 그러나 스키마 매핑에 두 값이 모두 있는 경우 워크플로우는 출력의 각 레코드를 복제합니다. 한 레코드는 UID2 생성에 이메일을 사용하고 두 번째 레코드는 전화번호를 사용합니다. 데이터에 이메일과 전화 번호가 혼합되어 있고 출력에서 이러한 레코드 중복을 원하지 않는 경우 각 데이터에 대해 별도의 스키마 매핑을 사용하여 별도의 워크플로를 만드는 것이 가장 좋습니다. 이 시나리오에서는 단계를 두 번 진행하세요. 이메일에 대한 워크플로를 하나 만들고 전화번호에 대해 별도의 워크플로를 만드십시오.

참고

특정 시간에 특정 이메일이나 전화번호만 있으면 누가 요청했든 상관없이 동일한 원시 UID2 가치를 얻을 수 있습니다.

대략 일 년에 한 번 회전되는 소금 통에 소금을 넣어 날 UID2s 것으로 만든 것으로, 생 소금 양동이에서 소금을 넣으면 생 UID2 소금도 함께 순환됩니다. 소금 양동이는 일 년 내내 각기 다른 시기에 회전합니다. AWS Entity Resolution 현재는 회전하는 소금 통과 생 소금 통을 추적하지 UID2s 못하므로 매일 생 소금 통을 재생하는 것이 좋습니다. UID2s 자세한 내용은 증분 업데이트 시 얼마나 자주 새로 UID2s 고쳐야 하나요? 를 참조하십시오. UID2.0 설명서에서

3단계: 입력 데이터 테이블을 지원되는 데이터 형식으로 저장

타사 입력 데이터를 지원되는 데이터 형식으로 이미 저장한 경우 이 단계를 건너뛰어도 됩니다.

사용하려면 AWS Entity Resolution입력 데이터는 다음과 같은 형식이어야 합니다. AWS Entity Resolution 지원합니다. AWS Entity Resolution 다음과 같은 데이터 형식을 지원합니다.

  • 쉼표로 구분된 값 () CSV

    참고

    LiveRamp 파일만 지원합니다. CSV

  • PARQUET

4단계: 입력 데이터 테이블을 Amazon S3에 업로드

Amazon S3에 타사 데이터 테이블이 이미 있는 경우 이 단계를 건너뛰어도 됩니다.

참고

입력 데이터는 동일한 아마존 심플 스토리지 서비스 (Amazon S3) 에 저장되어야 합니다. AWS 계정 그리고 AWS 리전 매칭 워크플로를 실행하려는 곳.

입력 데이터 테이블을 Amazon S3에 업로드하려면
  1. 에 로그인하십시오. AWS Management Console 에서 Amazon S3 콘솔을 엽니다 https://console.aws.amazon.com/s3/.

  2. [Bucket] 을 선택한 다음 데이터 테이블을 저장할 버킷을 선택합니다.

  3. 업로드를 선택한 다음 안내를 따릅니다.

  4. 개체 탭을 선택하여 데이터가 저장되는 접두사를 확인합니다. 폴더의 이름을 메모해 둡니다.

    폴더를 선택하여 데이터 테이블을 볼 수 있습니다.

5단계: 만들기 AWS Glue 테이블

Amazon S3의 입력 데이터는 다음 위치에 카탈로그가 있어야 합니다. AWS Glue 그리고 다음과 같이 표현됩니다. AWS Glue 테이블. 생성 방법에 대한 자세한 내용은 AWS Glue Amazon S3를 입력으로 사용하는 테이블은 크롤러로 작업하기를 참조하십시오. AWS Glue 콘솔: AWS Glue 개발자 가이드.

참고

AWS Entity Resolution 분할된 테이블을 지원하지 않습니다.

이 단계에서는 에서 크롤러를 설정합니다. AWS Glue 그러면 S3 버킷의 모든 파일이 크롤링되어 다음 파일이 생성됩니다. AWS Glue 테이블.

참고

AWS Entity Resolution 에 등록된 Amazon S3 위치는 현재 지원하지 않습니다. AWS Lake Formation.

생성하려면 AWS Glue 테이블
  1. 에 로그인하십시오. AWS Management Console 그리고 여세요 AWS Glue 에서 콘솔을 https://console.aws.amazon.com/glue/실행하세요.

  2. 탐색 모음에서 크롤러를 선택합니다.

  3. 목록에서 S3 버킷을 선택한 다음 크롤러 추가를 선택합니다.

  4. 크롤러 추가 페이지에서 크롤러 이름을 입력한 후 다음을 선택합니다.

  5. 크롤러 추가 페이지를 계속 진행하여 세부 정보를 지정합니다.

  6. 역할 선택 페이지에서 기존 IAM IAM 역할 선택을 선택한 후 다음을 선택합니다.

    필요한 경우 IAM역할 생성을 선택하거나 관리자가 IAM 역할을 생성하도록 할 수도 있습니다.

  7. 이 크롤러에 대한 일정 생성의 경우 빈도 기본값(요청 시 실행)을 유지하고 다음을 선택합니다.

  8. 크롤러 출력 구성에 다음을 입력합니다. AWS Glue 데이터베이스를 선택하고 다음을 선택합니다.

  9. 크롤러 세부 정보를 검토한 다음 마침을 선택합니다.

  10. 크롤러 페이지에서 S3 버킷 옆의 확인란을 선택하고 크롤러 실행을 선택합니다.

  11. 크롤러 실행이 끝나면 AWS Glue 탐색 표시줄에서 데이터베이스를 선택한 다음 데이터베이스 이름을 선택합니다.

  12. 데이터베이스 페이지에서 {사용자 데이터베이스 이름} 에서 테이블을 선택합니다.

    1. 테이블 보기: AWS Glue 데이터베이스.

    2. 테이블의 스키마를 보려면 특정 테이블을 선택합니다.

    3. 다음을 기록해 두십시오. AWS Glue 데이터베이스 이름 및 AWS Glue 테이블 이름