AWS Entity Resolution 数据匹配服务术语表

Amazon 资源名称（ARN）

AWS 资源的唯一标识符。当您需要在所有资源中明确指定资源时，例如在 AWS Entity Resolution 数据匹配服务策略 AWS Entity Resolution 数据匹配服务、Amazon Relational Database Service (Amazon RDS) 标签和 API 调用中，则需要使用 ARN。

属性类型

输入字段的属性类型。创建架构映射时，您可以从预先配置的值列表中选择属性类型，例如姓名、地址、电话号码或电子邮件地址。属性类型告诉您呈现的是 AWS Entity Resolution 数据匹配服务哪种数据，从而可以对其进行正确分类和标准化。

自动处理

匹配工作流作业的处理节奏选项，当您的数据输入发生变化时，它可以自动运行。

此选项仅适用于基于规则的匹配。

默认情况下，匹配工作流作业的处理节奏设置为 “手动”，这样便可以按需运行。您可以将自动处理设置为在数据输入发生变化时自动运行匹配的工作流程作业。这样可以使您的匹配工作流程输出保持最新。

AWS KMS key 进行筛选

这是您用于静态加密的 AWS KMS Amazon 资源名称 (ARN)。如果未提供，则系统将使用 AWS Entity Resolution 数据匹配服务托管 KMS 密钥。

批量工作流程

按计划间隔运行的进程，用于匹配和解析整个数据集中的数据。中的批处理工作流最 AWS Entity Resolution 数据匹配服务适合用于初始设置、定期完全刷新以及源数据集和目标数据集均发生重大变化的场景。

明文

未受加密保护的数据。

置信度 (ConfidenceLevel)

对于 ML 匹配，这是 ML 识别匹配的记录集 AWS Entity Resolution 数据匹配服务时所应用的置信水平。这是将包含在输出中的匹配工作流程元数据的一部分。

解密

将加密数据转换回其原始形式的过程。只有获得密钥，才能进行解密。

加密

使用称为密钥的机密值将数据编码成看似随机的形式的过程。如果无法访问密钥，就无法确定原始明文。

组名

组名引用整个输入字段组，可以帮助您将已解析的数据分组在一起以进行匹配。

例如，如果有三个输入字段：first_namemiddle_namelast_name、和，则可以通过在组名中输入匹配和输出来将它们分组在一起。full_name

哈希

哈希意味着应用一种加密算法，该算法会生成不可逆且唯一的固定大小的字符串，称为哈希。 AWS Entity Resolution 数据匹配服务使用安全哈希算法 256 位 (SHA256) 哈希协议，并将输出 32 字节的字符串。在中 AWS Entity Resolution 数据匹配服务，您可以选择是否对输出中的数据值进行哈希处理。

哈希协议 (HashingProtocol)

AWS Entity Resolution 数据匹配服务使用安全哈希算法 256 位 (SHA256) 哈希协议，并将输出 32 字节的字符串。这是将包含在输出中的匹配工作流程元数据的一部分。

ID 映射方法

您希望如何执行 ID 映射。

有两种 ID 映射方法：

Rule-based — 在 ID 映射工作流程中，使用匹配规则将第一方数据从源转换为目标的方法。
提供者服务-在 ID 映射工作流程中，使用提供者服务将第三方编码的数据从源转换为目标的方法。

AWS Entity Resolution 数据匹配服务目前支持 LiveRamp 作为基于提供商服务的身份映射方法。您必须订阅 LiveRamp 直通 AWS Data Exchange 才能使用此方法。有关更多信息，请参阅步骤 1：在上订阅提供商服务 AWS Data Exchange。

ID 映射工作流程

一种数据处理作业，它根据指定的 ID 映射方法将输入数据源中的数据映射到输入数据目标。它会生成一个 ID 映射表。此工作流程要求您指定 ID 映射方法以及要从源转换为目标的输入数据。

您可以将 ID 映射工作流程设置为自己运行 AWS 账户或跨两个运行 AWS 账户。

ID 命名空间

中的一种资源 AWS Entity Resolution 数据匹配服务，其中包含解释多个数据集 AWS 账户以及如何在 ID 映射工作流程中使用这些数据集的元数据。

ID 命名空间有两种类型：SOURCE和。TARGETSOURCE包含将在 ID 映射工作流程中处理的源数据的配置。TARGET包含所有源都将解析为的目标数据的配置。要定义要跨两个集合解析的输入数据 AWS 账户，请创建一个 ID 命名空间源和一个 ID 命名空间目标，以将数据从一个集合 (SOURCE) 转换为另一个集合 (TARGET)。

在您和其他成员创建 ID 命名空间并运行 ID 映射工作流程后，您可以加入协作，在 AWS Clean Rooms ID 映射表上运行多表联接，并分析数据。

有关更多信息，请参阅 AWS Clean Rooms 《用户指南》。

增量工作流程

仅匹配和解析自上次运行以来的新记录或更新的记录，而不是处理整个数据集的流程。中的增量工作流程最 AWS Entity Resolution 数据匹配服务适合频繁更新，以便在数据集只有一小部分发生变化时保持数据的新鲜度。

输入字段

输入字段对应于 AWS Glue 输入数据表中的列名。

输入源 ARN (AR InputSource N)

为 AWS Glue 表输入生成的亚马逊资源名称 (ARN)。这是将包含在输出中的匹配工作流程元数据的一部分。

基于机器学习的匹配

基于机器学习的匹配（机器学习匹配）可在您的数据中查找可能不完整或可能看起来不完全相同的匹配项。机器学习匹配是一个预设过程，它将尝试匹配您输入的所有数据的记录。机器学习匹配返回每个匹配数据集的匹配 ID 和置信度。

手动处理

匹配工作流作业的处理节奏选项，使其能够按需运行。

此选项是默认设置的，可用于基于规则的匹配和基于机器学习的匹配。

Many-to-Many 匹配

Many-to-many matching 会比较相似数据的多个实例。已分配相同匹配键的输入字段中的值将相互匹配，无论它们位于同一个输入字段还是不同的输入字段中。

例如，您可能有多个电话号码输入字段，例如mobile_phone和home_phone，它们具有相同的匹配键 “Phone”。使用多对多匹配将输入字段中的数据与mobile_phone输入字段中的数据以及mobile_phone输入字段中的数据进行比较。home_phone

匹配规则使用（或）运算评估具有相同匹配键的多个输入字段中的数据，一对多匹配比较多个输入字段中的值。这意味着，如果两条记录之间有任何组合mobile_phone或匹home_phone配，“电话” 匹配键将返回匹配项。对于匹配键 “Phone” 来查找匹配项，Record One mobile_phone = Record Two mobile_phone或Record One mobile_phone = Record Two home_phone或Record One home_phone = Record Two home_phone或Record One home_phone = Record Two mobile_phone。

比赛 ID (matchID)

对于基于规则的匹配和 ML 匹配，这是由每个匹配的记录集生成 AWS Entity Resolution 数据匹配服务并应用于的 ID。这是将包含在输出中的匹配工作流程元数据的一部分。

匹配键 (MatchKey)

Match key 指示将 AWS Entity Resolution 数据匹配服务哪些输入字段视为相似数据，哪些输入字段应视为不同的数据。这有助于 AWS Entity Resolution 数据匹配服务自动配置基于规则的匹配规则，并比较存储在不同输入字段中的相似数据。

如果您想将数据中的mobile_phone输入字段和输入字段等多种类型的电话号码信息进行比较，则可以为它们提供匹配键 “Phone”。home_phone然后，可以将基于规则的匹配配置为在所有输入字段中使用 “或” 语句与 “电话” 匹配键比较数据（参见 “One-to-One 匹配工作流程” 部分中的Many-to-Many 匹配和匹配定义）。

如果您希望基于规则的匹配完全分开考虑不同类型的电话号码信息，则可以创建更具体的匹配键，例如 “Mobile_Phone” 和 “Home_Phone”。然后，在设置匹配工作流程时，您可以指定在基于规则的匹配中如何使用每个电话匹配键。

如果没有 MatchKey 为特定的输入字段指定 “否”，则该字段不能用于匹配，但可以执行匹配工作流程，并且可以根据需要输出。

匹配键名称

分配给匹配键的名称。

匹配规则 (MatchRule)

对于基于规则的匹配，这是生成匹配记录集所应用的规则编号。这是将包含在输出中的匹配工作流程元数据的一部分。

Matching

组合和比较来自不同输入字段、表或数据库的数据，并根据满足某些匹配条件（例如，通过匹配规则或模型）确定其中哪个相似或 “匹配” 的过程。

匹配工作流程

您为指定要匹配的输入数据而设置的过程以及应如何执行匹配。

匹配的工作流程描述

您可以选择输入的匹配工作流程的可选描述。如果您创建多个工作流程，描述可以帮助您区分匹配的工作流程。

匹配工作流程名称

您指定的匹配工作流程的名称。

注意

匹配的工作流程名称必须是唯一的。它们的名称不能相同，否则将返回错误。

匹配工作流程元数据

在匹配的工作流作业 AWS Entity Resolution 数据匹配服务期间生成和输出的信息。输出时需要此信息。

标准化 (ApplyNormalization)

选择是否按照架构中的定义对输入数据进行标准化。标准化通过删除多余的空格和特殊字符并标准化为小写格式来标准化数据。

例如，如果输入字段的属性类型为 F ull phon e，并且输入表中的值格式为(123) 456-7890，则 AWS Entity Resolution 数据匹配服务会将值标准化为1234567890。

注意

仅支持姓名、地址、电话和电子邮件的群组类型标准化。

以下各节描述了我们的标准标准化规则。

要具体进行 ML-based 匹配，请参阅标准化 (ApplyNormalization)- ML-based 仅限。

Name

注意

只有名称组类型支持标准化。

名称组类型在控制台中显示为全名，在 API NAME 中也显示为全名。

如果要规范化名称组类型的子类型，请执行以下操作：

在控制台中，为全名组分配以下子类型：名字、中间名和姓氏。
在 CreateSchemaMappingAPI 中，为NAME组名分配以下类型：NAME_FIRSTNAME_MIDDLE、和。NAME_LAST

TRIM = 修剪前导和尾随的空格
小写 = 小写所有字母字符
CONVER@@ T_ACCENT = 将带有重音符号的字母转换为普通字母
REMOVE_ALL_NON_ALPHA = 移除所有非字母字符 [a-z] A-Z

电子邮件

注意

电子邮件群组类型支持标准化。

电子邮件群组类型在控制台中显示为电子邮件地址，在 API EMAIL_ADDRESS 中也显示为电子邮件地址。

TRIM = 修剪前导和尾随的空格
小写 = 小写所有字母字符
CONVER@@ T_ACCENT = 将带有重音符号的字母转换为普通字母
EMAIL_ADDRESS_UTIL_NORM = 删除用户名中的所有点 (.)，删除用户名中加号 (+) 之后的任何内容，并标准化常见的域名变体
REMOVE_ALL_NON_EMAIL_CHARS = 移除所有非字母数字字符 [a-z] 和 [.@-] A-Z0-9

Phone

注意

仅电话组类型支持标准化。

电话组类型在控制台中显示为 “完整电话”，在 API PHONE 中显示为 “完整电话”。

如果要标准化电话组类型的子类型，请执行以下操作：

在控制台中，将以下子类型分配给完整电话组：电话号码和电话国家/地区代码。
在 CreateSchemaMappingAPI 中，为PHONE组名分配以下类型：PHONE_NUMBER和。PHONE_COUNTRYCODE

TRIM = 修剪前导和尾随的空格
REMOVE_ALL_NON_NUMERIC = 移除所有非数字字符 [0- 9]
REMOVE_ALL_LEADING_ZEROES = 移除所有前导零
ENSURE_PREFIX_WITH_MAP，“phonePrefixMap” = 检查每个电话号码并尝试将其与电话中的模式进行匹配。PrefixMap如果找到匹配项，该规则将添加或修改电话号码的前缀，以确保其符合地图中指定的标准格式。

地址

注意

仅地址组类型支持标准化。

地址组类型在控制台中显示为完整地址，在 API ADDRESS 中也显示为完整地址。

如果要对地址组类型的子类型进行标准化，请执行以下操作：

在控制台中，将以下子类型分配给完整地址组：街道地址 1、街道地址 2：街道地址 3 名称、城市名称、州、国家/地区和邮政编码 t
在 CreateSchemaMappingAPI 中，为ADDRESS组名分配以下类型：ADDRESS_STREET1、、ADDRESS_STREET2、ADDRESS_STREET3、ADDRESS_CITYADDRESS_STATEADDRESS_COUNTRY、和。ADDRESS_POSTALCODE

TRIM = 修剪前导和尾随的空格
小写 = 小写所有字母字符
CONVER@@ T_ACCENT = 将带有重音符号的字母转换为普通字母
REMOVE_ALL_NON_ALPHA = 移除所有非字母字符 [a-z] A-Z
使用 ADDRESS_RENAME_WORD_MAP 重命名字词 = 用 ADDRESS_RENAME_WORD_MAP 中的单词替换地址字符串中的单词
使用 ADDRESS_RENAME_DELIMATILER_MAP 重命名分隔符 = 将地址字符串中的分隔符替换为 ADDRESS_RENAME_DELIMER_MAP 中的字符串
使用 ADDRESS_RENAME_DIRECTION_MAP 重命名方向 = 将地址字符串中的分隔符替换为 ADDRESS_RENAME_DIRECTION_M AP 中的字符串
使用 ADDRESS_RENAME_NUMBER_MAP 重命名数字 = 用 ADDRESS_RENAME_NUMBER_MAP 中的字符串替换地址字符串中的数字
使用 ADDRESS_RENAME_SPECIAL_CHAR_MAP 重命名_特殊_CHAR_CHAR_MAP = 将地址字符串中的特殊字符替换为 ADDRESS_RENAME_SPECIAL_CHAR_ MAP 中的字符串

地址_重命名_WORD_MAP

这些是标准化地址字符串时将重命名的单词。


"avenue": "ave",
 "bouled": "blvd",
 "circle": "cir",
 "circles": "cirs",
 "court": "ct",
 "centre": "ctr",
 "center": "ctr",
 "drive": "dr",
 "freeway": "fwy",
 "frwy": "fwy",
 "highway": "hwy",
 "lane": "ln",
 "parks": "park",
 "parkways": "pkwy",
 "pky": "pkwy",
 "pkway": "pkwy",
 "pkwys": "pkwy",
 "parkway": "pkwy",
 "parkwy": "pkwy",
 "place": "pl",
 "plaza": "plz",
 "plza": "plz",
 "road": "rd",
 "square": "sq",
 "squ": "sq",
 "sqr": "sq",
 "street": "st",
 "str": "st",
 "str.": "strasse"

地址_重命名_分隔符_地图

这些是标准化地址字符串时将重命名的分隔符。


",": " ",
".": " ",
"[": " ",
"]": " ",
"/": " ",
"-": " ",
"#": " number "

地址_重命名_方向_地图

这些是在标准化地址字符串时将重命名的方向标识符。


"east": "e",
"north": "n",
"south": "s",
"west": "w",
"northeast": "ne",
"northwest": "nw",
"southeast": "se",
"southwest": "sw"

地址_重命名_数字_地图

这些是在标准化地址字符串时将重命名的数字字符串。


"número": "number",
 "numero": "number",
 "no": "number",
 "núm": "number",
 "num": "number"

地址_重命名_SPECIAL_CHAR_MAP

这些是在标准化地址字符串时将被重命名的特殊字符串。


"ß": "ss",
 "ä": "ae",
 "ö": "oe",
 "ü": "ue",
 "ø": "o",
 "æ": "ae"

经过哈希处理

TRIM = 修剪前导和尾随的空格

Source_ID

TRIM = 修剪前导和尾随的空格

标准化 (ApplyNormalization)- ML-based 仅限

选择是否按照架构中的定义对输入数据进行标准化。标准化通过删除多余的空格和特殊字符并标准化为小写格式来标准化数据。

例如，如果输入字段的属性类型为NAME，并且输入表中的值格式为Johns Smith，则 AWS Entity Resolution 数据匹配服务会将值标准化为john smith。

以下各节描述了基于机器学习的匹配工作流程的标准化规则。

主题

Name
电子邮件
Phone

Name

TRIM = 修剪前导和尾随的空格
小写 = 小写所有字母字符

电子邮件

小写 = 小写所有字母字符
仅用 @ 符号替换 (at)（区分大小写）
删除值中任意位置的所有空格
移除第一个之外的所有内容（"<>"如果存在）

Phone

TRIM = 修剪前导和尾随的空格
REMOVE_ALL_NON_NUMERIC = 移除所有非数字字符 [0- 9]
REMOVE_ALL_LEADING_ZEROES = 移除所有前导零
ENSURE_PREFIX_WITH_MAP，“phonePrefixMap” = 检查每个电话号码并尝试将其与电话中的模式进行匹配。PrefixMap如果找到匹配项，该规则将添加或修改电话号码的前缀，以确保其符合地图中指定的标准格式。

One-to-One 匹配

One-to-one matching 比较相似数据的单个实例。具有相同匹配键和相同输入字段中的值的输入字段将相互匹配。

例如，您可能有多个电话号码输入字段，例如mobile_phone和home_phone，它们具有相同的匹配键 “Phone”。使用一对一匹配将输入字段中的数据与mobile_phone输入字段中的数据进行比较，并将mobile_phone输入字段中的数据与home_phone输入字段中的数据进行比较。home_phonemobile_phone输入字段中的数据不会与home_phone输入字段中的数据进行比较。

匹配规则使用（或）运算评估具有相同匹配键的多个输入字段中的数据，一对多匹配比较单个输入字段中的值。这意味着，如果mobile_phone或在两条记录之间匹home_phone配，“电话” 匹配键将返回匹配项。要使用匹配键 “电话” 来查找匹配项，Record One mobile_phone = Record Two mobile_phone或者Record One home_phone = Record Two home_phone。

匹配规则通过（和）运算评估具有不同匹配键的输入字段中的数据。如果您希望基于规则的匹配完全分开考虑不同类型的电话号码信息，则可以创建更具体的匹配键，例如 “mobile_phone” 和 “home_phone”。如果您想在规则中同时使用两个匹配键来查找匹配项，请使用 AN Record One mobile_phone = Record Two mobile_phone D Record One home_phone = Record Two home_phone。

Output

对象列表，每个OutputAttribute对象都有 “名称” 和 “哈希” 字段。这些对象中的每一个都表示要包含在 AWS Glue 输出表中的一列，以及您是否要对该列中的值进行哈希处理。

outputs3Path

AWS Entity Resolution 数据匹配服务将输出表写入的 S3 目标。

OutputSourceConfig

对象列表，每个 OutputSource 对象都有字段 outputs3Path、ApplyNormalization和 Outpu t。

基于提供商服务的匹配

基于提供商服务的匹配过程旨在将您的记录与首选数据服务提供商和许可数据集进行匹配、关联和增强。您必须通过 AWS Data Exchange 提供商服务订阅才能使用此匹配技术。

AWS Entity Resolution 数据匹配服务目前已与以下数据服务提供商集成：

LiveRamp
TransUnion
UID 2.0

Rule-based 匹配

Rule-based 匹配是旨在查找精确匹配项的过程。 Rule-based matching 是一组分层的瀑布匹配规则 AWS Entity Resolution 数据匹配服务，由您建议，基于您输入的数据，并且完全可以由您配置。规则条件中提供的所有匹配键都必须完全匹配，才能将比较的数据声明为匹配项并输出关联的元数据。 Rule-based matching 会为每个匹配的数据集返回一个匹配 ID 和一个规则编号。

我们建议定义能够唯一标识实体的规则。对规则进行排序，先找到更精确的匹配项。

例如，假设你有两个规则，规则 1 和规则 2。

这些规则具有以下匹配密钥：

规则 1 包括全名和地址
规则 2 包括全名、地址和电话

由于规则 1 首先运行，因此规则 2 不会找到任何匹配项，因为规则 1 本来可以找到所有匹配项。

要查找按电话区分的匹配项，请重新排列规则，如下所示：

规则 2 包括全名、地址和电话
规则 1 包括全名和地址

传递匹配

对于使用高级规则类型的基于规则的匹配工作流程，传递匹配是一项可选功能。默认情况下， AWS Entity Resolution 数据匹配服务使用瀑布匹配方法，即在更高规则级别匹配的记录将排除在后续规则之外。启用传递匹配后，将在所有规则级别上处理所有记录。记录的匹配 ID 在第一次匹配时是固定的，但该记录继续充当链接，将后来的规则中的不匹配记录与先前规则中的匹配组连接起来。

有关更多信息，请参阅使用传递匹配。

架构

该术语用于定义一组数据的组织和连接方式的结构或布局。

架构描述

您可以选择输入的架构的可选描述。如果您创建了多个架构映射，则描述可以帮助您区分架构映射。

架构名称

架构的名称。

注意

架构名称必须是唯一的。它们的名称不能相同，否则将返回错误。

架构映射

中的架构映射 AWS Entity Resolution 数据匹配服务是告诉您 AWS Entity Resolution 数据匹配服务如何解释数据以进行匹配的过程。您可以定义要 AWS Entity Resolution 数据匹配服务读入匹配工作流程的输入数据表的架构。

架构映射 ARN

为架构映射生成的亚马逊资源名称 (ARN)。

唯一 ID

您指定的唯一标识符，必须将其分配给 AWS Entity Resolution 数据匹配服务读取的每一行输入数据。

例

例如，Primary_key、Row_ID 或 Record_ID。

“唯一 ID” 列为必填字段。

唯一 ID 必须是单个表中的唯一标识符。

唯一 ID 必须满足以下模式：[a-zA-Z0-9_-]

在不同的表中，唯一 ID 可以有重复的值。

匹配工作流程的最大唯一 ID 长度为 38

唯一标识的最大长度为 257 个字符 ID 映射工作流程

运行匹配工作流程时，如果唯一 ID 满足以下条件，则该记录将被拒绝：

未指定
在同一个表中不是唯一的
不同源的属性名称存在重叠
超过 38 个字符（仅限基于规则的匹配工作流程）

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

文档历史记录

AWS Entity Resolution 数据匹配服务 术语表

Amazon 资源名称（ARN）

属性类型

自动处理

AWS KMS key 进行筛选

批量工作流程

明文

置信度 (ConfidenceLevel)

解密

加密

组名

哈希

哈希协议 (HashingProtocol)

ID 映射方法

ID 映射工作流程

ID 命名空间

增量工作流程

输入字段

输入源 ARN (AR InputSource N)

基于机器学习的匹配

手动处理

Many-to-Many 匹配

比赛 ID (matchID)

匹配键 (MatchKey)

匹配键名称

匹配规则 (MatchRule)

Matching

匹配工作流程

匹配的工作流程描述

匹配工作流程名称

注意

匹配工作流程元数据

标准化 (ApplyNormalization)

注意

主题

Name

注意

电子邮件

注意

Phone

注意

地址

注意

地址_重命名_WORD_MAP

地址_重命名_分隔符_地图

地址_重命名_方向_地图

地址_重命名_数字_地图

地址_重命名_SPECIAL_CHAR_MAP

经过哈希处理

Source_ID

标准化 (ApplyNormalization)- ML-based 仅限

主题

Name

电子邮件

Phone

One-to-One 匹配

Output

outputs3Path

OutputSourceConfig

基于提供商服务的匹配

Rule-based 匹配

传递匹配

架构

架构描述

架构名称

注意

架构映射

架构映射 ARN

唯一 ID

例

AWS Entity Resolution 数据匹配服务术语表