本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
准备第三方输入数据
第三方数据服务提供的标识符可以与您的已知标识符相匹配。
AWS Entity Resolution 数据匹配服务 目前支持以下第三方数据提供商服务:
公司名 | 可用 AWS 区域 | 标识符 |
---|---|---|
LiveRamp | 美国东部(弗吉尼亚北部)(us-east-1)、美国东部(俄亥俄州)(us-east-2)和美国西部(俄勒冈)(us-west-2) | 坡道 ID |
TransUnion | 美国东部(弗吉尼亚北部)(us-east-1)、美国东部(俄亥俄州)(us-east-2)和美国西部(俄勒冈)(us-west-2) | TransUnion 个人和家庭 IDs |
统一身份证 2.0 | 美国东部(弗吉尼亚北部)(us-east-1)、美国东部(俄亥俄州)(us-east-2)和美国西部(俄勒冈)(us-west-2) | raw UID 2 |
以下步骤介绍如何准备第三方数据,以使用基于提供商服务的匹配工作流程或基于提供商服务的身份映射工作流程。
主题
步骤 1:在上订阅提供商服务 AWS Data Exchange
如果您通过以下方式订阅了提供商服务 AWS Data Exchange,您可以使用以下提供商服务之一运行匹配的工作流程,将您的已知标识符与您的首选提供商进行匹配。您的数据将与您的首选提供商定义的一组输入相匹配。
要在上订阅提供商服务 AWS Data Exchange
-
在上查看提供商列表 AWS Data Exchange。 以下提供商列表可用:
-
LiveRamp
-
TransUnion
-
TransUnion TruAudience 无需转移的身份解析和充实
-
TransUnion TruAudience 无需转移的身份解析
-
-
统一身份证 2.0
-
-
根据您的报价类型,完成以下步骤之一。
-
私人报价 — 如果您与提供商存在关系,请按照中的私人产品和报价程序进行操作 AWS Data Exchange 接受私人报价的用户指南 AWS Data Exchange.
-
自带订阅 — 如果您已经向提供商订阅了现有的数据,请按照中的自带订阅 (BYOS) 优惠程序进行操作 AWS Data Exchange 接受报BYOS价的用户指南 AWS Data Exchange.
-
-
在您订阅了提供商服务之后 AWS Data Exchange,然后您可以使用该提供商服务创建匹配的工作流程或 ID 映射工作流程。
有关如何访问包含以下内容的提供商产品的更多信息APIs,请参阅中的访问API产品 AWS Data Exchange 用户指南。
步骤 2:准备第三方数据表
每种第三方服务都有一套不同的建议和指南,以帮助确保成功的匹配工作流程。
要准备第三方数据表,请参阅下表:
提供者服务 | 需要唯一的身份证吗? | 操作 |
---|---|---|
LiveRamp | 是 |
请确保以下几点: |
TransUnion | 是 |
请确保以下几点:
|
统一身份证 2.0 | 是 |
请确保以下几点:
注意无论是谁提出请求,特定的电子邮件或电话号码在任何特定时间都会产生相同的原始UID2价值。 生盐UID2s是通过添加盐桶中的盐来制成的,这些盐桶大约每年轮换一次,这样生的盐也会UID2随之旋转。不同的盐桶在一年中的不同时间轮换。 AWS Entity Resolution 数据匹配服务 目前无法跟踪旋转盐桶和未加工盐桶的情况UID2s,因此建议您每天重新生成未加工UID2s的盐桶。有关更多信息,请参阅增量更新UID2s应多久刷新一次 |
步骤 3:以支持的数据格式保存输入数据表
如果您已经以支持的数据格式保存了第三方输入数据,则可以跳过此步骤。
要将 AWS Entity Resolution 数据匹配服务,则输入数据的格式必须为 AWS Entity Resolution 数据匹配服务 支持。 AWS Entity Resolution 数据匹配服务 支持以下数据格式:
-
逗号分隔值 () CSV
注意
LiveRamp 仅支持CSV文件。
-
Parquet
步骤 4:将您的输入数据表上传到 Amazon S3
如果您在 Amazon S3 中已有第三方数据表,则可以跳过此步骤。
注意
输入数据必须存储在亚马逊简单存储服务 (Amazon S3) 中 AWS 账户 以及 AWS 区域 你想在其中运行匹配的工作流程。
将您的输入数据表上传到 Amazon S3
-
登录 AWS Management Console 然后打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/
。 -
选择 Buckets,然后选择一个存储桶来存储您的数据表。
-
选择上传,然后按照提示进行操作。
-
选择对象选项卡,查看存储数据的前缀。记下文件夹的名称。
您可以选择要查看数据表的文件夹。
步骤 5:创建一个 AWS Glue 表
Amazon S3 中的输入数据必须编入目录 AWS Glue 并表示为 AWS Glue 桌子。有关如何创建的更多信息 AWS Glue 以 Amazon S3 为输入的表,请参阅上的 “使用爬虫” AWS Glue 控制台在 AWS Glue 开发者指南。
注意
AWS Entity Resolution 数据匹配服务 不支持分区表。
在此步骤中,您将在中设置爬虫 AWS Glue 它会抓取 S3 存储桶中的所有文件并创建一个 AWS Glue 桌子。
注意
AWS Entity Resolution 数据匹配服务 目前不支持注册到的 Amazon S3 地点 AWS Lake Formation.
要创建 AWS Glue 表
-
登录 AWS Management Console 然后打开 AWS Glue 控制台位于https://console.aws.amazon.com/glue/
。 -
从导航栏中,选择爬网程序。
-
从列表中选择您的 S3 存储桶,然后选择添加爬网程序。
-
在添加爬网程序页面上,输入爬网程序名称,然后选择下一步。
-
继续浏览添加爬网程序页面,指定详细信息。
-
在 “选择IAM角色” 页面上,选择 “选择现有IAM角色”,然后选择 “下一步”。
如果需要,您也可以选择创建IAM角色或让管理员创建IAM角色。
-
对于为此爬网程序创建计划,请保留默认频率(按需运行),然后选择下一步。
-
在 “配置爬虫的输出” 中,输入 AWS Glue 数据库,然后选择 “下一步”。
-
检查所有详细信息,然后选择完成。
-
在爬网程序页面上,选中 S3 存储桶旁边的复选框,然后选择运行爬网程序。
-
爬行器运行完毕后,在 AWS Glue 导航栏,选择数据库,然后选择您的数据库名称。
-
在数据库页面上,选择 {your database name} 中的表。
-
查看中的表格 AWS Glue 数据库。
-
要查看表的架构,请选择一个特定的表。
-
记下来 AWS Glue 数据库名称和 AWS Glue 表名。
-