准备第三方输入数据 - AWS Entity Resolution 数据匹配服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备第三方输入数据

第三方数据服务提供的标识符可以与您的已知标识符相匹配。

AWS Entity Resolution 数据匹配服务 目前支持以下第三方数据提供商服务:

数据提供商服务
公司名 可用 AWS 区域 标识符
LiveRamp 美国东部(弗吉尼亚北部)(us-east-1)、美国东部(俄亥俄州)(us-east-2)和美国西部(俄勒冈)(us-west-2) 坡道 ID
TransUnion 美国东部(弗吉尼亚北部)(us-east-1)、美国东部(俄亥俄州)(us-east-2)和美国西部(俄勒冈)(us-west-2) TransUnion 个人和家庭 IDs
统一身份证 2.0 美国东部(弗吉尼亚北部)(us-east-1)、美国东部(俄亥俄州)(us-east-2)和美国西部(俄勒冈)(us-west-2) raw UID 2

以下步骤介绍如何准备第三方数据,以使用基于提供商服务的匹配工作流程或基于提供商服务的身份映射工作流程。

步骤 1:在上订阅提供商服务 AWS Data Exchange

如果您通过以下方式订阅了提供商服务 AWS Data Exchange,您可以使用以下提供商服务之一运行匹配的工作流程,将您的已知标识符与您的首选提供商进行匹配。您的数据将与您的首选提供商定义的一组输入相匹配。

要在上订阅提供商服务 AWS Data Exchange

  1. 在上查看提供商列表 AWS Data Exchange。 以下提供商列表可用:

  2. 根据您的报价类型,完成以下步骤之一。

    • 私人报价 — 如果您与提供商存在关系,请按照中的私人产品和报价程序进行操作 AWS Data Exchange 接受私人报价的用户指南 AWS Data Exchange.

    • 自带订阅 — 如果您已经向提供商订阅了现有的数据,请按照中的自带订阅 (BYOS) 优惠程序进行操作 AWS Data Exchange 接受报BYOS价的用户指南 AWS Data Exchange.

  3. 在您订阅了提供商服务之后 AWS Data Exchange,然后您可以使用该提供商服务创建匹配的工作流程或 ID 映射工作流程。

有关如何访问包含以下内容的提供商产品的更多信息APIs,请参阅中的访问API产品 AWS Data Exchange 用户指南

步骤 2:准备第三方数据表

每种第三方服务都有一套不同的建议和指南,以帮助确保成功的匹配工作流程。

要准备第三方数据表,请参阅下表:

数据提供商服务指南
提供者服务 需要唯一的身份证吗? 操作
LiveRamp

请确保以下几点:

  • 唯一 ID 可以是您自己的匿名标识符,也可以是行 ID。

  • 您的数据输入文件格式和标准化符合 LiveRamp指导方针。

    有关匹配工作流程的输入文件格式指南的更多信息,请参阅 LiveRamp 文档ADX中的通过执行身份解析

    有关 ID 映射工作流程的输入文件格式指南的更多信息,请参阅 LiveRamp 文档ADX中的通过执行转码

TransUnion

请确保以下几点:

  • 存在用于 TransUnion 数据扩充的唯一 ID

    注意

    允许传递属性在输入和输出中保持不变 TransUnion。家用 E 密钥和特定HHID于客户端命名空间。

  • Phone number应为 10 位数字,不含任何特殊字符,例如空格或连字符。

  • Addresses应该分成

    • 单个地址行(如果有,则合并地址行 1 和 2)

    • city

    • zip(或 zip plus4),不含任何特殊字符,例如空格或连字符

    • 州,指定为 2 个字母的代码 3

  • Email addresses应为纯文本。

  • First Name可以是小写或大写,支持昵称,但应排除标题和后缀。

  • Last Name可以是小写或大写,中间的首字母可以排除在外。

统一身份证 2.0

请确保以下几点:

  • 唯一 ID 不能是哈希。

  • UID2支持UID2生成电子邮件和电话号码。但是,如果两个值都存在于架构映射中,则工作流会复制输出中的每条记录。一条记录使用电子邮件生UID2成,第二条记录使用电话号码。如果您的数据混合包含电子邮件和电话号码,并且您不希望在输出中出现这种重复的记录,那么最好的方法是为每个数据创建一个单独的工作流程,并使用不同的架构映射。在这种情况下,请执行两次步骤——为电子邮件创建一个工作流程,为电话号码创建一个单独的工作流程。

注意

无论是谁提出请求,特定的电子邮件或电话号码在任何特定时间都会产生相同的原始UID2价值。

生盐UID2s是通过添加盐桶中的盐来制成的,这些盐桶大约每年轮换一次,这样生的盐也会UID2随之旋转。不同的盐桶在一年中的不同时间轮换。 AWS Entity Resolution 数据匹配服务 目前无法跟踪旋转盐桶和未加工盐桶的情况UID2s,因此建议您每天重新生成未加工UID2s的盐桶。有关更多信息,请参阅增量更新UID2s应多久刷新一次? 在 UID 2.0 文档中。

步骤 3:以支持的数据格式保存输入数据表

如果您已经以支持的数据格式保存了第三方输入数据,则可以跳过此步骤。

要将 AWS Entity Resolution 数据匹配服务,则输入数据的格式必须为 AWS Entity Resolution 数据匹配服务 支持。 AWS Entity Resolution 数据匹配服务 支持以下数据格式:

  • 逗号分隔值 () CSV

    注意

    LiveRamp 仅支持CSV文件。

  • Parquet

步骤 4:将您的输入数据表上传到 Amazon S3

如果您在 Amazon S3 中已有第三方数据表,则可以跳过此步骤。

注意

输入数据必须存储在亚马逊简单存储服务 (Amazon S3) 中 AWS 账户 以及 AWS 区域 你想在其中运行匹配的工作流程。

将您的输入数据表上传到 Amazon S3
  1. 登录 AWS Management Console 然后打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/

  2. 选择 Buckets,然后选择一个存储桶来存储您的数据表。

  3. 选择上传,然后按照提示进行操作。

  4. 选择对象选项卡,查看存储数据的前缀。记下文件夹的名称。

    您可以选择要查看数据表的文件夹。

步骤 5:创建一个 AWS Glue 表

Amazon S3 中的输入数据必须编入目录 AWS Glue 并表示为 AWS Glue 桌子。有关如何创建的更多信息 AWS Glue 以 Amazon S3 为输入的表,请参阅上的 “使用爬虫” AWS Glue 控制台AWS Glue 开发者指南。

注意

AWS Entity Resolution 数据匹配服务 不支持分区表。

在此步骤中,您将在中设置爬虫 AWS Glue 它会抓取 S3 存储桶中的所有文件并创建一个 AWS Glue 桌子。

注意

AWS Entity Resolution 数据匹配服务 目前不支持注册到的 Amazon S3 地点 AWS Lake Formation.

要创建 AWS Glue 表
  1. 登录 AWS Management Console 然后打开 AWS Glue 控制台位于https://console.aws.amazon.com/glue/

  2. 从导航栏中,选择爬网程序

  3. 从列表中选择您的 S3 存储桶,然后选择添加爬网程序

  4. 添加爬网程序页面上,输入爬网程序名称,然后选择下一步

  5. 继续浏览添加爬网程序页面,指定详细信息。

  6. “选择IAM角色” 页面上,选择 “选择现有IAM角色”,然后选择 “下一步”。

    如果需要,您也可以选择创建IAM角色或让管理员创建IAM角色。

  7. 对于为此爬网程序创建计划,请保留默认频率按需运行),然后选择下一步

  8. 在 “配置爬虫的输出” 中,输入 AWS Glue 数据库,然后选择 “下一步”。

  9. 检查所有详细信息,然后选择完成

  10. 爬网程序页面上,选中 S3 存储桶旁边的复选框,然后选择运行爬网程序

  11. 爬行器运行完毕后,在 AWS Glue 导航栏,选择数据库,然后选择您的数据库名称。

  12. 数据库页面上,选择 {your database name} 中的表

    1. 查看中的表格 AWS Glue 数据库。

    2. 要查看表的架构,请选择一个特定的表。

    3. 记下来 AWS Glue 数据库名称和 AWS Glue 表名。