本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Entity Resolution 数据匹配服务 词汇表
亚马逊资源名称 (ARN)
AWS 资源的唯一标识符。ARNs当您需要在所有内容中明确指定资源时,例如在 AWS Entity Resolution 数据匹配服务 策略 AWS Entity Resolution 数据匹配服务、Amazon Relational Database Service (AmazonRDS) 标签和API调用中,则需要使用此选项。
自动处理
匹配工作流作业的处理节奏选项,当您的数据输入发生变化时,它可以自动运行。
此选项仅适用于基于规则的匹配。
默认情况下,匹配工作流作业的处理节奏设置为 “手动”,这样便可以按需运行。您可以将自动处理设置为在数据输入发生变化时自动运行匹配的工作流程作业。这样可以保留匹配的工作流程输出 up-to-date。
AWS KMS key ARN
这是用于静态加密的 AWS KMS Amazon 资源名称 (ARN)。如果未提供,则系统将使用 AWS Entity Resolution 数据匹配服务 托管KMS密钥。
明文
未受加密保护的数据。
信心等级 (ConfidenceLevel)
对于 ML 匹配,这是 ML 识别匹配的记录集 AWS Entity Resolution 数据匹配服务 时所应用的置信水平。这是将包含在输出中的匹配工作流程元数据的一部分。
解密
将加密数据转换回其原始形式的过程。只有获得密钥,才能进行解密。
加密
使用称为密钥的机密值将数据编码成看似随机的形式的过程。如果无法访问密钥,就无法确定原始明文。
组名
组名引用整个输入字段组,可以帮助您将已解析的数据分组在一起以进行匹配。
例如,如果有三个输入字段:first_name
middle_name
last_name
、和,则可以通过在组名中输入匹配和输出来将它们分组在一起。full_name
哈希
哈希意味着应用一种加密算法,该算法会生成不可逆且唯一的固定大小的字符串,称为哈希。 AWS Entity Resolution 数据匹配服务 使用安全哈希算法 256 位 (SHA256) 哈希协议,并将输出 32 字节的字符串。在中 AWS Entity Resolution 数据匹配服务,您可以选择是否对输出中的数据值进行哈希处理。
哈希协议 (HashingProtocol)
AWS Entity Resolution 数据匹配服务 使用安全哈希算法 256 位 (SHA256) 哈希协议,并将输出 32 字节的字符串。这是将包含在输出中的匹配工作流程元数据的一部分。
身份映射方法
您希望如何执行 ID 映射。
有两种 ID 映射方法:
-
基于规则-在 ID 映射工作流程中使用匹配规则将第一方数据从源转换为目标的方法。
-
提供者服务-在 ID 映射工作流程中,使用提供者服务将第三方编码的数据从源转换为目标的方法。
AWS Entity Resolution 数据匹配服务 目前支持 LiveRamp 作为基于提供商服务的身份映射方法。您必须订阅 LiveRamp 直通 AWS Data Exchange 才能使用此方法。有关更多信息,请参阅 步骤 1:在上订阅提供商服务 AWS Data Exchange。
身份映射工作流程
一种数据处理作业,它根据指定的 ID 映射方法将输入数据源中的数据映射到输入数据目标。它生成一个 ID 映射表。此工作流程要求您指定 ID 映射方法以及要从源转换为目标的输入数据。
您可以将 ID 映射工作流程设置为自己运行 AWS 账户 或跨两个运行 AWS 账户。
ID 命名空间
中的一种资源 AWS Entity Resolution 数据匹配服务 ,其中包含解释多个数据集 AWS 账户 以及如何在 ID 映射工作流程中使用这些数据集的元数据。
ID 命名空间有两种类型:SOURCE
和。TARGET
SOURCE
包含将在 ID 映射工作流程中处理的源数据的配置。TARGET
包含所有源都将解析为的目标数据的配置。要定义要跨两个集合解析的输入数据 AWS 账户,请创建一个 ID 命名空间源和一个 ID 命名空间目标,以将数据从一个集合 (SOURCE
) 转换为另一个集合 (TARGET
)。
在您和其他成员创建 ID 命名空间并运行 ID 映射工作流程后,您可以加入协作,在 AWS Clean Rooms ID 映射表上运行多表联接,并分析数据。
有关更多信息,请参阅 用户指南。AWS Clean Rooms
输入字段
输入字段对应于 AWS Glue 输入数据表中的列名。
输入源 ARN (InputSourceARN)
为 AWS Glue 表输入生成的 Amazon 资源名称 (ARN)。这是将包含在输出中的匹配工作流程元数据的一部分。
输入类型
输入数据的类型。您可以从预先配置的值列表中进行选择,例如姓名、地址、电话号码或电子邮件地址。输入类型告诉您呈现的是 AWS Entity Resolution 数据匹配服务 哪种数据,从而可以对其进行正确分类和标准化。
基于机器学习的匹配
基于机器学习的匹配(机器学习匹配)可在您的数据中查找可能不完整或可能看起来不完全相同的匹配项。机器学习匹配是一个预设过程,它将尝试匹配您输入的所有数据的记录。机器学习匹配返回每个匹配数据集的匹配 ID 和置信度。
手动处理
匹配工作流作业的处理节奏选项,使其能够按需运行。
此选项是默认设置的,可用于基于规则的匹配和基于机器学习的匹配。
Many-to-Many 匹配
Many-to-many matching 会比较相似数据的多个实例。已分配相同匹配键的输入字段中的值将相互匹配,无论它们位于同一个输入字段还是不同的输入字段中。
例如,您可能有多个电话号码输入字段,例如mobile_phone
和home_phone
,它们具有相同的匹配键 “Phone”。使用 many-to-many匹配将输入字段中的数据与mobile_phone
输入字段中的数据以及mobile_phone
输入字段中的home_phone
数据进行比较。
匹配规则通过(或)运算评估具有相同匹配键的多个输入字段中的数据,而 one-to-many匹配则比较多个输入字段中的值。这意味着,如果两条记录之间有任何组合mobile_phone
或匹home_phone
配,“电话” 匹配键将返回匹配项。对于匹配键 “Phone” 来查找匹配项,Record One mobile_phone = Record Two mobile_phone
或Record One mobile_phone
= Record Two home_phone
或Record One home_phone = Record Two home_phone
或Record One home_phone = Record Two mobile_phone
。
比赛 ID (matchID)
对于基于规则的匹配和 ML 匹配,这是由每个匹配的记录集生成 AWS Entity Resolution 数据匹配服务 并应用于的 ID。这是将包含在输出中的匹配工作流程元数据的一部分。
匹配密钥 (MatchKey)
Match key 指示将 AWS Entity Resolution 数据匹配服务 哪些输入字段视为相似数据,哪些输入字段应视为不同的数据。这有助于 AWS Entity Resolution 数据匹配服务 自动配置基于规则的匹配规则,并比较存储在不同输入字段中的相似数据。
如果您想将数据中的mobile_phone
输入字段和输入字段等多种类型的电话号码信息进行比较,则可以为它们提供匹配键 “Phone”。home_phone
然后,可以将基于规则的匹配配置为在所有输入字段中使用 “或” 语句与 “电话” 匹配键比较数据(参见 “One-to-One 匹配工作流程” 部分中的Many-to-Many 匹配和匹配定义)。
如果您希望基于规则的匹配完全分开考虑不同类型的电话号码信息,则可以创建更具体的匹配键,例如 “Mobile_Phone” 和 “Home_Phone”。然后,在设置匹配工作流程时,您可以指定在基于规则的匹配中如何使用每个电话匹配键。
如果没有 MatchKey 为特定的输入字段指定 “否”,则该字段不能用于匹配,但可以执行匹配工作流程,并且可以根据需要输出。
匹配密钥名称
分配给匹配密钥的名称。
匹配规则 (MatchRule)
对于基于规则的匹配,这是生成匹配记录集所应用的规则编号。这是将包含在输出中的匹配工作流程元数据的一部分。
匹配
组合和比较来自不同输入字段、表或数据库的数据,并根据满足某些匹配条件(例如,通过匹配规则或模型)确定其中哪个相似或 “匹配” 的过程。
匹配工作流程
您为指定要匹配的输入数据而设置的过程以及应如何执行匹配。
匹配的工作流程描述
您可以选择输入的匹配工作流程的可选描述。如果您创建多个工作流程,描述可以帮助您区分匹配的工作流程。
匹配工作流程名称
您指定的匹配工作流程的名称。
注意
匹配的工作流程名称必须是唯一的。它们的名称不能相同,否则将返回错误。
匹配工作流程元数据
在匹配的工作流作业 AWS Entity Resolution 数据匹配服务 期间生成和输出的信息。输出时需要此信息。
标准化 (ApplyNormalization)
选择是否按照架构中的定义对输入数据进行标准化。标准化通过删除多余的空格和特殊字符并标准化为小写格式来标准化数据。
例如,如果输入字段的输入类型为PHONE_NUMBER
,并且输入表中的值格式为(123) 456-7890
,则 AWS Entity Resolution 数据匹配服务 会将值标准化为1234567890
。
以下各节描述了我们的标准标准化规则。具体要了解基于 ML 的匹配,请参阅。标准化 (ApplyNormalization) — 仅基于 ML
名称
-
TRIM= 修剪前导和尾随的空格
-
LOWERCASE= 小写所有字母字符
-
CONVERT_ ACCENT = 将带有重音符号的字母转换为普通字母
-
REMOVE_ ALL NON _ ALPHA = 移除所有非字母字符 [a-za-z]
-
TRIM= 修剪前导和尾随的空格
-
LOWERCASE= 小写所有字母字符
-
CONVERT_ ACCENT = 将带有重音符号的字母转换为普通字母
-
EMAIL_ ADDRESS _ UTIL _ NORM = 删除用户名中的所有点 (.),删除用户名中加号 (+) 之后的任何内容,并标准化常见的域变体
-
REMOVE_ _ ALL NON EMAIL _ CHARS = 移除所有 non-alpha-numeric字符 [a-za-z0-9] 和 [.@-]
Phone
-
TRIM= 修剪前导和尾随的空格
-
REMOVE_ ALL NON _ NUMERIC = 删除所有非数字字符 [0-9]
-
REMOVE_ ALL LEADING _ ZEROES = 移除所有前导零
-
ENSURE_ PREFIX _ WITH _MAP,phonePrefixMap"= 检查每个电话号码并尝试将其与中的模式进行匹配 phonePrefixMap。如果找到匹配项,该规则将添加或修改电话号码的前缀,以确保其符合地图中指定的标准格式。
地址
-
TRIM= 修剪前导和尾随的空格
-
LOWERCASE= 小写所有字母字符
-
CONVERT_ ACCENT = 将带有重音符号的字母转换为普通字母
-
REMOVE_ ALL NON _ ALPHA = 移除所有非字母字符 [a-za-z]
-
RENAME_ WORDS 使用 ADDRESS _ RENAME WORD _ MAP = 将地址字符串中的单词替换为 ADDRESS_ _ RENAME WORD _ 中的单词 MAP
-
RENAME_ DELIMITERS 使用 ADDRESS _ RENAME DELIMITER _ MAP = 将地址字符串中的分隔符替换为 ADDRESS_ _ RENAME _ DELIMITER 中的字符串 MAP
-
RENAME_ DIRECTIONS 使用 ADDRESS _ RENAME DIRECTION _ MAP = 将地址字符串中的分隔符替换为 ADDRESS_ _ RENAME _ DIRECTION 中的字符串 MAP
-
RENAME_ NUMBERS 使用 ADDRESS _ RENAME NUMBER _ MAP = 用 _ ADDRESS_ RENAME 中的字符串替换地址字符串中的数字 NUMBER MAP
-
RENAME_ SPECIAL _ CHARS 使用 ADDRESS _ _ RENAME _ SPECIAL CHAR _ MAP = 将地址字符串中的特殊字符替换为 ADDRESS_ _ _ RENAME SPECIAL CHAR _ 中的字符串 MAP
ADDRESS_RENAME_WORD_MAP
这些是标准化地址字符串时将重命名的单词。
"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"
ADDRESS_RENAME_DELIMITER_MAP
这些是标准化地址字符串时将重命名的分隔符。
",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "
ADDRESS_RENAME_DIRECTION_MAP
这些是在标准化地址字符串时将重命名的方向标识符。
"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"
ADDRESS_RENAME_NUMBER_MAP
这些是在标准化地址字符串时将重命名的数字字符串。
"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"
ADDRESS_RENAME_SPECIAL_CHAR_MAP
这些是在标准化地址字符串时将被重命名的特殊字符串。
"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"
经过哈希处理
-
TRIM= 修剪前导和尾随的空格
来源_ID
-
TRIM= 修剪前导和尾随的空格
标准化 (ApplyNormalization) — 仅基于 ML
选择是否按照架构中的定义对输入数据进行标准化。标准化通过删除多余的空格和特殊字符并标准化为小写格式来标准化数据。
例如,如果输入字段的输入类型为NAME
,并且输入表中的值格式为Johns Smith
,则 AWS Entity Resolution 数据匹配服务 会将值标准化为john smith
。
以下各节描述了基于机器学习的匹配工作流程的标准化规则。
名称
-
TRIM= 修剪前导和尾随的空格
-
LOWERCASE= 小写所有字母字符
-
LOWERCASE= 小写所有字母字符
-
仅用 @ 符号替换 (at)(区分大小写)
-
移除值中任意位置的所有空格
-
移除第一个之外的所有内容(
"<
>"
如果存在)
Phone
-
TRIM= 修剪前导和尾随的空格
-
REMOVE_ ALL NON _ NUMERIC = 删除所有非数字字符 [0-9]
-
REMOVE_ ALL LEADING _ ZEROES = 移除所有前导零
-
ENSURE_ PREFIX _ WITH _MAP,phonePrefixMap"= 检查每个电话号码并尝试将其与中的模式进行匹配 phonePrefixMap。如果找到匹配项,该规则将添加或修改电话号码的前缀,以确保其符合地图中指定的标准格式。
One-to-One 匹配
One-to-one matching 比较相似数据的单个实例。具有相同匹配键和相同输入字段中的值的输入字段将相互匹配。
例如,您可能有多个电话号码输入字段,例如mobile_phone
和home_phone
,它们具有相同的匹配键 “Phone”。使用 one-to-one匹配将输入字段中的数据与mobile_phone
输入字段中的数据进行比较,并将mobile_phone
输入字段中的数据与home_phone
输入字段中的home_phone
数据进行比较。mobile_phone
输入字段中的数据不会与home_phone
输入字段中的数据进行比较。
匹配规则通过(或)运算评估具有相同匹配键的多个输入字段中的数据,而 one-to-many匹配则比较单个输入字段中的值。这意味着,如果mobile_phone
或在两条记录之间匹home_phone
配,“电话” 匹配键将返回匹配项。要使用匹配键 “电话” 来查找匹配项,Record One
mobile_phone = Record Two mobile_phone
或者Record One home_phone = Record Two
home_phone
。
匹配规则通过(和)运算评估具有不同匹配键的输入字段中的数据。如果您希望基于规则的匹配完全分开考虑不同类型的电话号码信息,则可以创建更具体的匹配键,例如 “mobile_phone” 和 “home_phone”。如果您想在规则中同时使用两个匹配键来查找匹配项,Record One
mobile_phone = Record Two mobile_phone
ANDRecord One home_phone = Record Two
home_phone
.
输出
对象列表,每个OutputAttribute对象都有 “名称” 和 “哈希” 字段。这些对象中的每一个都表示要包含在 AWS Glue 输出表中的一列,以及您是否要对该列中的值进行哈希处理。
outputs3Path
AWS Entity Resolution 数据匹配服务 将输出表写入的 S3 目标。
OutputSourceConfig
对象列表,每个 OutputSource 对象都有字段 outputs3Path、ApplyNormalization和 Outpu t。
基于提供商服务的匹配
基于提供商服务的匹配过程旨在将您的记录与首选数据服务提供商和许可数据集进行匹配、关联和增强。您必须通过 AWS Data Exchange 提供商服务订阅才能使用此匹配技术。
AWS Entity Resolution 数据匹配服务 目前已与以下数据服务提供商集成:
-
LiveRamp
-
TransUnion
-
UID2.0
基于规则的匹配
基于规则的匹配是旨在查找精确匹配项的过程。基于规则的匹配是一组分层的瀑布匹配规则 AWS Entity Resolution 数据匹配服务,由您根据输入的数据建议并完全由您配置。规则条件中提供的所有匹配键都必须完全匹配,才能将比较的数据声明为匹配项并输出关联的元数据。基于规则的匹配会为每个匹配的数据集返回一个匹配 ID 和一个规则编号。
我们建议定义能够唯一标识实体的规则。对规则进行排序,先找到更精确的匹配项。
例如,假设你有两个规则,规则 1 和规则 2。
这些规则具有以下匹配密钥:
-
规则 1 包括全名和地址
-
规则 2 包括全名、地址和电话
由于规则 1 首先运行,因此规则 2 不会找到任何匹配项,因为规则 1 本来可以找到所有匹配项。
要查找按电话区分的匹配项,请重新排列规则,如下所示:
-
规则 2 包括全名、地址和电话
-
规则 1 包括全名和地址
架构
该术语用于定义一组数据的组织和连接方式的结构或布局。
架构描述
您可以选择输入的架构的可选描述。如果您创建了多个架构映射,则描述可以帮助您区分架构映射。
架构名称
架构的名称。
注意
架构名称必须是唯一的。它们的名称不能相同,否则将返回错误。
架构映射
中的架构映射 AWS Entity Resolution 数据匹配服务 是告诉您 AWS Entity Resolution 数据匹配服务 如何解释数据以进行匹配的过程。您可以定义要 AWS Entity Resolution 数据匹配服务 读入匹配工作流程的输入数据表的架构。
架构映射 ARN
为架构映射生成的 Amazon 资源名称 (ARN)。
唯一标识
您指定的唯一标识符,必须将其分配给 AWS Entity Resolution 数据匹配服务 读取的每一行输入数据。
例如,Primary_key
、Row_ID
或 Record_ID
。
“唯一 ID” 列为必填字段。
唯一 ID 必须是单个表中的唯一标识符。
在不同的表中,唯一 ID 可以有重复的值。
运行匹配工作流程时,如果唯一 ID 满足以下条件,则该记录将被拒绝:
-
未指定
-
在同一个表中不是唯一的
-
在不同源的属性名称方面存在重叠。
-
超过 38 个字符(仅限基于规则的匹配工作流程)