本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Entity Resolution 詞彙表
Amazon Resource Name (ARN)
資源的唯一識別碼 AWS 。ARNs 當您需要在整個 中明確指定資源時 AWS Entity Resolution,例如在 AWS Entity Resolution 政策、Amazon Relational Database Service (Amazon RDS) 標籤和API呼叫中, 是必要的。
自動處理
比對工作流程任務的處理節奏選項,可在資料輸入變更時自動在 上執行。
此選項僅適用於規則型比對。
根據預設,相符工作流程任務的處理節奏會設定為手動,使其可隨需執行。您可以設定自動處理,以便在資料輸入變更時自動執行相符的工作流程任務。這可保留相符的工作流程輸出 up-to-date。
AWS KMS key ARN
這是靜態加密的 AWS KMS Amazon Resource Name (ARN)。如果未提供,系統將使用 AWS Entity Resolution 受管KMS金鑰。
Cleartext
未受到密碼編譯保護的資料。
可信度層級 (ConfidenceLevel)
對於 ML 比對,這是當 ML 識別相符的記錄集 AWS Entity Resolution 時, 套用的可信度層級。這是將包含在輸出中的相符工作流程中繼資料的一部分。
解密
將加密資料轉換回原始格式的程序。只有在您可以存取秘密金鑰時,才能執行解密。
加密
將資料編碼為使用稱為金鑰的秘密值隨機顯示的形式的程序。無法在無法存取金鑰的情況下判斷原始純文字。
Group name (群組名稱)
群組名稱會參考整個輸入欄位群組,並可協助您將剖析的資料分組在一起,以達成比對目的。
例如,如果有三個輸入欄位:first_name
、 middle_name
和 last_name
,您可以輸入群組名稱作為比對和輸出full_name
,將它們分組在一起。
雜湊
雜湊表示套用密碼編譯演算法,該演算法會產生固定大小的不可逆且唯一的字元字串,稱為雜湊。 AWS Entity Resolution 使用安全雜湊演算法 256 位元 (SHA256) 雜湊通訊協定,並將輸出 32 位元組字元字串。在 中 AWS Entity Resolution,您可以選擇是否要在輸出中雜湊資料值。
雜湊通訊協定 (HashingProtocol)
AWS Entity Resolution 使用 Secure Hash Algorithm 256 位元 (SHA256) 雜湊通訊協定,並將輸出 32 位元組字元字串。這是將包含在輸出中的相符工作流程中繼資料的一部分。
ID 映射方法
您希望如何執行 ID 映射。
有兩種 ID 映射方法:
-
規則型 – 使用比對規則,將來源的第一方資料轉譯為 ID 映射工作流程中的目標的方法。
-
提供者服務 – 使用提供者服務將第三方編碼資料從來源轉譯至 ID 映射工作流程中目標的方法。
AWS Entity Resolution 目前支援 LiveRamp 作為提供者服務型 ID 映射方法。您必須擁有 LiveRamp 至 的訂閱 AWS Data Exchange ,才能使用此方法。如需詳細資訊,請參閱步驟 1:訂閱提供者服務 AWS Data Exchange。
ID 映射工作流程
根據指定的 ID 映射方法,將資料從輸入資料來源映射到輸入資料目標的資料處理任務。它會產生 ID 映射表。此工作流程需要您指定 ID 映射方法,以及您要從來源轉譯到目標的輸入資料。
您可以設定 ID 映射工作流程,在您自己的 中 AWS 帳戶 或跨兩個 執行 AWS 帳戶。
ID 命名空間
中的資源包含中繼資料 AWS Entity Resolution ,解釋多個 AWS 帳戶 資料集,以及如何在 ID 映射工作流程 中使用這些資料集。
ID 命名空間有兩種類型: SOURCE
和 TARGET
。SOURCE
包含將在 ID 映射工作流程中處理的來源資料的組態。TARGET
包含所有來源將解析的目標資料的組態。若要定義您要在兩個 之間解析的輸入資料 AWS 帳戶,請建立 ID 命名空間來源和 ID 命名空間目標,以將資料從一組 (SOURCE
) 轉換為另一組 ()TARGET
。
在您和其他成員建立 ID 命名空間並執行 ID 映射工作流程之後,您可以在 中加入協作 AWS Clean Rooms ,以在 ID 映射資料表上執行多資料表聯結,並分析資料。
如需詳細資訊,請參閱《AWS Clean Rooms 使用者指南》https://docs.aws.amazon.com/clean-rooms/latest/userguide/what-is.html。
輸入欄位
輸入欄位對應於 AWS Glue 輸入資料表中的資料欄名稱。
輸入來源 ARN(InputSourceARN)
為 AWS Glue 資料表輸入產生的 Amazon Resource Name (ARN)。這是將包含在輸出中的相符工作流程中繼資料的一部分。
輸入類型
輸入資料的類型。您可以從預先設定的值清單中選取,例如名稱、地址、電話號碼或電子郵件地址。輸入類型會說明您要呈現的 AWS Entity Resolution 資料類型,以便正確分類和標準化資料。
機器學習型比對
機器學習型比對 (ML 比對) 會尋找可能不完整或看起來不完全相同的資料相符項目。ML 比對是預設程序,會嘗試比對您輸入所有資料的記錄。ML 比對會傳回每組相符資料的比對 ID 和可信度。
手動處理
比對工作流程任務的處理節奏選項,可視需要執行。
Many-to-Many 比對
Many-to-many 比對會比較類似資料的多個執行個體。已指派相同相符金鑰的輸入欄位中的值會彼此比對,無論它們位於相同的輸入欄位還是不同的輸入欄位。
例如,您可能有多個電話號碼輸入欄位,例如 mobile_phone
和 home_phone
具有相同相符金鑰「電話」。使用 many-to-many比對將mobile_phone
輸入欄位中的資料與mobile_phone
輸入欄位中的資料和home_phone
輸入欄位中的資料進行比較。
比對規則會使用與 (或) 操作相同的比對索引鍵評估多個輸入欄位中的資料,比對 one-to-many則會比較多個輸入欄位的值。這表示如果兩個記錄之間有任何 mobile_phone
或 的組合home_phone
相符,則「電話」相符金鑰會傳回相符項目。對於相符金鑰「電話」尋找相符項目,Record One mobile_phone = Record Two mobile_phone
或 Record One mobile_phone = Record Two home_phone
OR Record One home_phone = Record Two home_phone
或 Record One home_phone = Record Two mobile_phone
。
比對 ID MatchID)
對於規則型比對和 ML 比對,這是由 產生 AWS Entity Resolution 並套用至每個比對記錄集的 ID。這是將包含在輸出中的相符工作流程中繼資料的一部分。
比對金鑰 (MatchKey)
比對金鑰會指示要將 AWS Entity Resolution 哪些輸入欄位視為類似資料,以及要將哪些欄位視為不同資料。這有助於 AWS Entity Resolution 自動設定規則型比對規則,並比較儲存在不同輸入欄位中的類似資料。
如果資料中有多個電話號碼資訊類型,例如mobile_phone
輸入欄位和您要比較的home_phone
輸入欄位,您可以將相符金鑰 “Phone” 提供給他們。然後,可以設定規則型比對,使用「或」陳述式,在所有輸入欄位中使用「電話」比對金鑰來比較資料 (請參閱One-to-One 比對工作流程中的比對與Many-to-Many 比對定義一節)。
如果您想要規則型比對完全分開考慮不同類型的電話號碼資訊,您可以建立更具體的比對金鑰,例如「Mobile_Phone」和「Home_Phone」。然後,在設定相符的工作流程時,您可以指定每個電話相符金鑰在規則型相符中使用的方式。
如果特定輸入欄位未指定 MatchKey 任何 ,則無法用於比對,但可透過比對工作流程程序進行,並在需要時進行輸出。
比對金鑰名稱
指派給 Match Key 的名稱。
比對規則 (MatchRule)
對於規則型比對,這是產生相符記錄集的套用規則編號。這是將包含在輸出中的相符工作流程中繼資料的一部分。
相符
合併和比較不同輸入欄位、資料表或資料庫的資料,並根據滿足特定比對條件 (例如,透過比對規則或模型) 來判斷哪些資料相似或相符的程序。
比對工作流程
您設定以指定要比對的輸入資料,以及如何執行比對的程序。
比對工作流程描述
您可以選擇輸入的相符工作流程的選用描述。如果建立多個工作流程,描述可協助您區分相符的工作流程。
比對工作流程名稱
您指定的相符工作流程的名稱。
注意
相符的工作流程名稱必須是唯一的。它們不能具有相同的名稱,否則將會傳回錯誤。
比對工作流程中繼資料
比對工作流程任務 AWS Entity Resolution 期間由 產生和輸出的資訊。輸出時需要此資訊。
標準化 (ApplyNormalization)
選擇是否要標準化結構描述中定義的輸入資料。標準化會移除額外的空格和特殊字元,並將資料標準化為小寫格式。
例如,如果輸入欄位的輸入類型為 PHONE_NUMBER
,且輸入資料表中的值格式化為 (123) 456-7890
, AWS Entity Resolution 會將值標準化為 1234567890
。
下列各節說明我們的標準標準化規則。如需特定 ML 型比對,請參閱 標準化 (ApplyNormalization) – 僅限 ML。
名稱
-
TRIM = 修剪前後空白
-
LOWERCASE = 小寫所有字母字元
-
CONVERT_ACCENT = 將重音字母轉換為一般字母
-
REMOVE_ALL_NON_ALPHA = 移除所有非字母字元 【a-zA-Z】
電子郵件
-
TRIM = 修剪前後空格
-
LOWERCASE = 小寫所有字母字元
-
CONVERT_ACCENT = 將重音字母轉換為一般字母
-
EMAIL_ADDRESS_UTIL_NORM = 從使用者名稱中移除任何點 (.)、移除使用者名稱中加號 (+) 之後的任何內容,以及標準化常見的網域變化
-
REMOVE_ALL_NON_EMAIL_CHARS = 移除所有 non-alpha-numeric字元 【a-zA-Z0-9】 和 【.@-】
Phone
-
TRIM = 修剪前後空白
-
REMOVE_ALL_NON_NUMERIC = 移除所有非數字字元 【0-9】
-
REMOVE_ALL_LEADING_ZEROES = 移除所有前導零
-
ENSURE_PREFIX_WITH_MAP, "phonePrefixMap" = 檢查每個電話號碼,並嘗試將其與 中的模式比對 phonePrefixMap。如果找到相符項目,則規則會新增或修改電話號碼的字首,以確保其符合地圖中指定的標準化格式。
Address
-
TRIM = 修剪前後空白
-
LOWERCASE = 小寫所有字母字元
-
CONVERT_ACCENT = 將重音字母轉換為一般字母
-
REMOVE_ALL_NON_ALPHA = 移除所有非字母字元 【a-zA-Z】
-
RENAME_WORDS 使用 ADDRESS_RENAME_WORD_MAP = 使用來自 ADDRESS_RENAME_WORD_ MAP的單字取代地址字串中的單字
-
RENAME_DELIMITERS 使用 ADDRESS_RENAME_DELIMITER_MAP = 使用來自 ADDRESS_RENAME_DELIMITER_MAP 的字串取代地址字串中的分隔符號
-
RENAME_DIRECTIONS 使用 ADDRESS_RENAME_DIRECTION_MAP= 將地址字串中的分隔符號取代為來自 ADDRESS_RENAME_DIRECTION_MAP 的字串
-
RENAME_NUMBERS 使用 ADDRESS_RENAME_NUMBER_MAP = 將地址字串中的數字取代為來自 ADDRESS_RENAME_NUMBER_MAP 的字串
-
RENAME_SPECIAL_CHARS 使用 ADDRESS_RENAME_SPECIALCHAR_MAP = 使用來自 ADDRESS_RENAME_SPECIAL_ 的字串取代地址字串中的特殊字元CHARMAP
ADDRESS_RENAME_WORD_MAP
這些是標準化地址字串時將重新命名的單字。
"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"
ADDRESS_RENAME_DELIMITER_MAP
這些是標準化地址字串時將重新命名的分隔符號。
",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "
ADDRESS_RENAME_DIRECTION_MAP
這些是標準化地址字串時將重新命名的方向識別符。
"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"
ADDRESS_RENAME_NUMBER_MAP
這些是在標準化地址字串時將重新命名的數字字串。
"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"
ADDRESS_RENAME_SPECIAL_CHAR_MAP
這些是特殊字元字串,會在標準化地址字串時重新命名。
"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"
雜湊
-
TRIM = 修剪前後空白
Source_ID
-
TRIM = 修剪前後空白
標準化 (ApplyNormalization) – 僅限 ML
選擇是否要標準化結構描述中定義的輸入資料。標準化會移除額外的空格和特殊字元,並將資料標準化為小寫格式。
例如,如果輸入欄位的輸入類型為 NAME
,且輸入資料表中的值格式化為 Johns Smith
, AWS Entity Resolution 會將值標準化為 john smith
。
下列各節說明以機器學習為基礎的相符工作流程 的標準化規則。
名稱
-
TRIM = 修剪前後空格
-
LOWERCASE = 小寫所有字母字元
電子郵件
-
LOWERCASE = 小寫所有字母字元
-
僅 (以 表示) 使用 @ 符號取代 (區分大小寫)
-
移除值中的任何位置的所有空格
-
"<
>"
如果存在,則移除在第一個 之外的所有項目
Phone
-
TRIM = 修剪前後空格
-
REMOVE_ALL_NON_NUMERIC = 移除所有非數字字元 【0-9】
-
REMOVE_ALL_LEADING_ZEROES = 移除所有前導零
-
ENSURE_PREFIX_WITH_MAP, "phonePrefixMap" = 檢查每個電話號碼,並嘗試將其與 中的模式比對 phonePrefixMap。如果找到相符項目,則規則會新增或修改電話號碼的字首,以確保其符合地圖中指定的標準化格式。
One-to-One 比對
One-to-one 比對會比較類似資料的單一執行個體。相同輸入欄位中具有相同相符索引鍵和值的輸入欄位會互相比對。
例如,您可能有多個電話號碼輸入欄位,例如 mobile_phone
和 home_phone
,其具有相同的相符金鑰「電話」。使用 one-to-one比對將mobile_phone
輸入欄位中的資料與mobile_phone
輸入欄位中的資料進行比較,並將home_phone
輸入欄位中的資料與home_phone
輸入欄位中的資料進行比較。mobile_phone
輸入欄位中的資料不會與home_phone
輸入欄位中的資料進行比較。
比對規則會使用與 (或) 操作相同的比對索引鍵評估多個輸入欄位中的資料,比對 one-to-many則會比較單一輸入欄位內的值。這表示如果兩個記錄之間有 mobile_phone
或 home_phone
相符,則「電話」相符金鑰會傳回相符項目。對於相符金鑰「電話」尋找相符項目,Record One mobile_phone = Record Two mobile_phone
或 Record One home_phone = Record Two home_phone
。
比對規則會使用具有 (和) 操作的不同比對金鑰評估輸入欄位中的資料。如果您希望規則型比對完全分開考慮不同類型的電話號碼資訊,您可以建立更具體的比對金鑰,例如「mobile_phone」和「home_phone」。如果您想要在規則中使用兩個相符金鑰來尋找相符項目,Record One mobile_phone = Record Two mobile_phone
AND請Record One home_phone = Record Two home_phone
。
輸出
物件清單,每個OutputAttribute物件都有欄位名稱和雜湊 。這些物件都代表要包含在 AWS Glue 輸出資料表中的資料欄,以及您是否希望雜湊資料欄中的值。
OutputS3Path
AWS Entity Resolution 將寫入輸出資料表的 S3 目的地。
OutputSourceConfig
物件清單,每個 OutputSource 物件都有 OutputS3Path ApplyNormalization和 Output 等欄位。
提供者服務型比對
提供者服務型比對是設計來比對、連結和增強您記錄的程序,其使用偏好的資料服務提供者和授權資料集。您必須透過 AWS Data Exchange 與提供者服務進行訂閱,才能使用此比對技術。
AWS Entity Resolution 目前與下列資料服務供應商整合:
-
LiveRamp
-
TransUnion
-
UID 2.0
規則型比對
規則型比對是設計用來尋找確切比對的程序。規則型比對是一套階層式的瀑布比對規則,由 根據您輸入的資料建議 AWS Entity Resolution,並完全由您設定。規則條件中提供的所有相符金鑰都必須完全相符,才能宣告相符的比較資料,以及要輸出的關聯中繼資料。規則型比對會傳回每個相符資料集的比對 ID 和規則編號。
我們建議定義可唯一識別實體的規則。排序您的規則,先尋找更精確的相符項目。
例如,假設您有兩個規則:規則 1 和規則 2。
這些規則具有下列相符金鑰:
-
規則 1 包含全名和地址
-
規則 2 包括全名、地址和電話
由於規則 1 會先執行,因此規則 2 不會找到相符項目,因為規則 1 會找到這些相符項目。
若要尋找以電話區分的相符項目,請重新排序規則,如下所示:
-
規則 2 包括全名、地址和電話
-
規則 1 包含全名和地址
結構描述
用於定義資料集如何組織和連線的結構或配置的術語。
結構描述描述
您可以選擇輸入的結構描述的選用描述。如果您建立多個結構描述映射,描述可協助您區分。
結構描述名稱
結構描述的名稱。
注意
結構描述名稱必須是唯一的。它們不能具有相同的名稱,否則將會傳回錯誤。
結構描述映射
中的結構描述映射 AWS Entity Resolution 是您告知 AWS Entity Resolution 如何解譯資料以進行比對的程序。您可以定義 AWS Entity Resolution 要讀取至相符工作流程的輸入資料表結構描述。
結構描述映射 ARN
為結構描述映射產生的 Amazon Resource Name (ARN)。
唯一 ID
您指定且必須指派給讀取之每一列輸入資料的唯一識別碼 AWS Entity Resolution 。
例如,Primary_key
、Row_ID
或 Record_ID
。
唯一 ID 資料欄為必填。
唯一 ID 必須是單一資料表內的唯一識別符。
在不同資料表中,唯一 ID 可以具有重複值。
執行相符的工作流程時,如果唯一 ID :
-
未指定
-
在同一資料表中不是唯一的
-
跨來源的屬性名稱重疊。
-
超過 38 個字元 (僅限規則型相符工作流程)