翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Entity Resolution 用語集
Amazon リソースネーム (ARN)
AWS リソースの一意の識別子。ARNs は、 AWS Entity Resolution ポリシー AWS Entity Resolution、Amazon Relational Database Service (Amazon RDS) タグ、API呼び出しなど、すべての でリソースを明確に指定する必要がある場合に必要です。
自動処理
データ入力が変更されたときに自動的に実行できるようにする、一致するワークフロージョブの処理頻度オプション。
このオプションは、ルールベースのマッチングでのみ使用できます。
デフォルトでは、一致するワークフロージョブの処理頻度は手動 に設定され、オンデマンドで実行できます。データ入力が変更されると、一致するワークフロージョブを自動的に実行するように自動処理を設定できます。これにより、一致するワークフロー出力 が維持されます up-to-date。
AWS KMS key ARN
これは、保管中の暗号化用の AWS KMS Amazon リソースネーム (ARN) です。指定しない場合、システムは AWS Entity Resolution マネージドKMSキーを使用します。
クリアテキスト
暗号化で保護されていないデータ。
信頼レベル (ConfidenceLevel)
ML マッチングの場合、ML が一致するレコードセットを識別する AWS Entity Resolution ときに によって適用される信頼レベルです。これは、出力に含まれる一致するワークフローメタデータの一部です。
復号
暗号化されたデータを元の形式に戻すプロセスです。復号化は、シークレットキーにアクセスできる場合にのみ実行できます。
暗号化
キーと呼ばれる秘密の値を使用して、データをランダムに見える形式にエンコードするプロセスです。キーにアクセスしない限り、元のプレーンテキストを特定することはできません。
グループ名
グループ名は入力フィールドのグループ全体を参照し、解析されたデータを一致させるためにグループ化するのに役立ちます。
例えば、first_name
、、 の 3 つの入力フィールドがある場合last_name
、照合と出力full_name
のために としてグループ名を入力してmiddle_name
、それらをグループ化できます。
ハッシュ
ハッシュ化とは、固定サイズの不可逆的で一意の文字列を生成する暗号化アルゴリズムを適用することを意味します。これをhash. AWS Entity Resolution uses Secure Hash Algorithm 256 ビット (SHA256) ハッシュプロトコルと呼び、32 バイトの文字列を出力します。では AWS Entity Resolution、出力でデータ値をハッシュするかどうかを選択できます。
ハッシュプロトコル (HashingProtocol)
AWS Entity Resolution は Secure Hash Algorithm 256 ビット (SHA256) ハッシュプロトコルを使用し、32 バイトの文字列を出力します。これは、出力に含まれる一致するワークフローメタデータの一部です。
ID マッピング方法
ID マッピングの実行方法。
ID マッピングには 2 つの方法があります。
-
ルールベース – 一致するルールを使用して、ID マッピングワークフローのソースからターゲットにファーストパーティデータを変換する方法。
-
プロバイダーサービス – プロバイダーサービスを使用して、ID マッピングワークフローのソースからターゲットにサードパーティーでエンコードされたデータを変換する方法。
AWS Entity Resolution は現在、プロバイダーのサービスベースの ID マッピング方法 LiveRamp として をサポートしています。この方法を使用するには AWS Data Exchange 、 LiveRamp から へのサブスクリプションが必要です。詳細については、「ステップ 1: でプロバイダーサービスをサブスクライブする AWS Data Exchange」を参照してください。
ID マッピングワークフロー
指定された ID マッピング方法に基づいて、入力データソースから入力データターゲットにデータをマッピングするデータ処理ジョブ。ID マッピングテーブルを生成します。このワークフローでは、ID マッピング方法と、ソースからターゲットに変換する入力データを指定する必要があります。
ID マッピングワークフローを設定して、独自の AWS アカウント または 2 つの で実行できます AWS アカウント。
ID 名前空間
複数の AWS アカウント データセットを説明するメタデータと、ID マッピングワークフロー でこれらのデータセットを使用する方法 AWS Entity Resolution を含む のリソース。
ID 名前空間には、 SOURCE
と の 2 種類がありますTARGET
。SOURCE
には、ID マッピングワークフローで処理されるソースデータの設定が含まれています。には、すべてのソースが解決されるターゲットデータの設定TARGET
が含まれています。2 つの 間で解決する入力データを定義するには AWS アカウント、ID 名前空間ソースと ID 名前空間ターゲットを作成して、データを 1 つのセット (SOURCE
) から別のセット () に変換しますTARGET
。
ID 名前空間を作成し、ID マッピングワークフローを実行した後、 でコラボレーションに参加 AWS Clean Rooms して ID マッピングテーブルでマルチテーブル結合を実行し、データを分析できます。
詳細については、AWS Clean Rooms ユーザーガイドをご参照ください。
入力フィールド
入力フィールドは、 AWS Glue 入力データテーブルの列名に対応します。
入力ソース ARN (InputSourceARN)
AWS Glue テーブル入力用に生成された Amazon リソースネーム (ARN)。これは、出力に含まれる一致するワークフローメタデータの一部です。
入力タイプ
入力データのタイプ。名前、住所、電話番号、E メールアドレスなど、事前設定された値のリストから選択します。入力タイプは、提示するデータ AWS Entity Resolution の種類を指定し、適切に分類および正規化できるようにします。
機械学習ベースのマッチング
機械学習ベースのマッチング (ML マッチング) では、データ全体で、不完全であるか、まったく同じように見えない可能性のある一致が検索されます。ML マッチングは、入力したすべてのデータにわたってレコードを照合しようとするプリセットプロセスです。ML マッチングは、一致したデータセットごとに一致 ID と信頼レベルを返します。
手動処理
オンデマンドで実行できるようにする、一致するワークフロージョブの処理頻度オプション。
このオプションはデフォルトで設定されており、ルールベースのマッチングと機械学習ベースのマッチングの両方で使用できます。
Many-to-Many マッチング
Many-to-many マッチングは、類似データの複数のインスタンスを比較します。同じ一致キーが割り当てられた入力フィールドの値は、同じ入力フィールドにあるか異なる入力フィールドにあるかにかかわらず、互いに照合されます。
例えば、 mobile_phone
や と同じ一致キーである「Phonehome_phone
」を持つ複数の電話番号入力フィールドがあるとします。 many-to-many 一致を使用して、mobile_phone
入力フィールドのデータとmobile_phone
入力フィールドのデータおよびhome_phone
入力フィールドのデータを比較します。
一致ルールは、同じ一致キーを持つ複数の入力フィールドのデータを (または) オペレーションで評価し one-to-many、一致は複数の入力フィールドの値を比較します。つまり、2 つのレコード間で mobile_phone
または の組み合わせhome_phone
が一致した場合、「電話」一致キーは一致を返します。一致キー「電話」で一致を検索するには、 Record One mobile_phone = Record Two mobile_phone
OR Record One mobile_phone = Record Two home_phone
OR Record One home_phone = Record Two home_phone
OR を使用しますRecord One home_phone = Record Two mobile_phone
。
一致 ID (MatchID )
ルールベースのマッチングと ML マッチングの場合、これは によって生成 AWS Entity Resolution され、一致する各レコードセットに適用される ID です。これは、出力に含まれる一致するワークフローメタデータの一部です。
一致キー (MatchKey)
一致キーは AWS Entity Resolution 、類似データとして考慮する入力フィールドと、異なるデータとして考慮する入力フィールドを指示します。これにより、ルールベースのマッチングルール AWS Entity Resolution を自動的に設定し、異なる入力フィールドに保存されている同様のデータを比較できます。
mobile_phone
入力フィールドやhome_phone
入力フィールドなど、比較するデータに複数のタイプの電話番号情報がある場合は、両方の一致キーを「Phone」にすることができます。次に、ルールベースのマッチングを設定して、すべての入力フィールドの「または」ステートメントと「電話」一致キーを使用してデータを比較できます (One-to-One 「一致ワークフロー」セクションのMany-to-Many 「一致と一致定義」を参照してください)。
ルールベースのマッチングで異なるタイプの電話番号情報を完全に個別に検討する場合は、「Mobile_Phone」や「Home_Phone」などのより具体的なマッチングキーを作成できます。次に、一致するワークフローを設定するときに、各電話一致キーをルールベースの一致で使用する方法を指定できます。
特定の入力フィールドに MatchKey を指定しない場合、マッチングには使用できませんが、マッチングワークフロープロセスを通じて実行でき、必要に応じて出力できます。
一致キー名
一致キー に割り当てられた名前。
一致ルール (MatchRule)
ルールベースのマッチングの場合、これは、一致したレコードセットを生成するために適用されたルール番号です。これは、出力に含まれる一致するワークフローメタデータの一部です。
一致
さまざまな入力フィールド、テーブル、データベースからのデータを結合して比較し、特定の一致基準を満たすことに基づいて (例えば、一致するルールやモデルを通じて)、同じか「一致」かを判断するプロセス。
マッチングワークフロー
一致させる入力データと一致の実行方法を指定するように設定したプロセス。
一致するワークフローの説明
入力することを選択できる一致するワークフローのオプションの説明。説明は、複数のワークフローを作成した場合の一致するワークフローの区別に役立ちます。
一致するワークフロー名
指定した一致するワークフローの名前。
注記
一致するワークフロー名は一意である必要があります。同じ名前にすることはできません。そうしないとエラーが返されます。
ワークフローメタデータの照合
一致するワークフロージョブ AWS Entity Resolution 中に によって生成および出力される情報。この情報は出力時に必要です。
正規化 (ApplyNormalization)
スキーマで定義されているように入力データを正規化するかどうかを選択します。正規化は、余分なスペースや特殊文字を削除し、小文字の形式に標準化することで、データを標準化します。
例えば、入力フィールドの入力タイプが でPHONE_NUMBER
、入力テーブルの値が としてフォーマットされている場合(123) 456-7890
、 AWS Entity Resolution は値を に正規化します1234567890
。
以下のセクションでは、標準正規化ルールについて説明します。ML ベースのマッチングの詳細については、「」を参照してください正規化 (ApplyNormalization) – ML ベースのみ。
名前
-
TRIM = 先頭と末尾の空白をトリミングする
-
LOWERCASE = すべての英字を小文字にします
-
CONVERT_ACCENT = 通常の文字へのコバートアクセント付き文字
-
REMOVE_ALLNON_ALPHA_ = アルファベット以外の文字をすべて削除します [a-zA-Z]
Email(メール)
-
TRIM = 先頭と末尾の空白をトリミングする
-
LOWERCASE = すべての英字を小文字にします
-
CONVERT_ACCENT = Covert アクセント付き文字から通常の文字
-
EMAIL_ADDRESS_UTIL_NORM = ユーザー名からドット (.) を削除し、ユーザー名のプラス記号 (+) の後に何も削除し、一般的なドメインバリエーションを標準化します。
-
REMOVE_ALLNON_EMAIL_CHARS = すべての non-alpha-numeric文字 [a-zA-Z0-9] と [.@-] を削除します
電話
-
TRIM = 先頭と末尾の空白をトリミングする
-
REMOVE_ALL_NON_NUMERIC = 数値以外の文字をすべて削除します [0~9]
-
REMOVE_ALL_LEADING_ZEROES = 先頭のゼロをすべて削除します
-
ENSURE_PREFIX_WITH_MAP,phonePrefixMap「」 = 各電話番号を調べ、 のパターンと照合しようとします phonePrefixMap。一致が見つかった場合、ルールは電話番号のプレフィックスを追加または変更し、マップで指定された標準化された形式に準拠します。
Address
-
TRIM = 先頭と末尾の空白をトリミングする
-
LOWERCASE = すべての英字を小文字にします
-
CONVERT_ACCENT = 通常の文字へのコバートアクセント付き文字
-
REMOVE_ALLNON_ALPHA = アルファベット以外の文字をすべて削除します [a-zA-Z]
-
RENAME_WORDSRENAME_WORD_ を使用する ADDRESS_MAP = アドレス文字列の単語を ADDRESS_RENAMEWORD_ MAPの単語に置き換える
-
RENAME_DELIMITERSRENAME_DELIMITER_ を使用する ADDRESS_MAP = アドレス文字列の区切り文字を ADDRESS_RENAMEDELIMITER_MAP の文字列に置き換える
-
RENAME_DIRECTIONSRENAME_DIRECTION_ を使用した ADDRESS_MAP= アドレス文字列の区切り文字を ADDRESS_RENAMEDIRECTION_MAP の文字列に置き換える
-
RENAME_NUMBERSRENAME_NUMBER_ を使用する ADDRESS_MAP = アドレス文字列の数値を ADDRESS_RENAMENUMBER_MAP の文字列に置き換える
-
RENAME_SPECIAL_CHARSRENAMESPECIAL__ を使用する ADDRESS_CHAR_MAP = アドレス文字列の特殊文字を ADDRESS_RENAME_SPECIALCHAR_MAP の文字列に置き換える
ADDRESS_RENAME_WORD_MAP
これらは、アドレス文字列を正規化するときに名前が変更される単語です。
"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"
ADDRESS_RENAME_DELIMITER_MAP
これらは、アドレス文字列を正規化するときに名前が変更される区切り文字です。
",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "
ADDRESS_RENAME_DIRECTION_MAP
これらは、アドレス文字列を正規化するときに名前が変更される方向識別子です。
"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"
ADDRESS_RENAME_NUMBER_MAP
これらは、アドレス文字列を正規化するときに名前が変更される数値文字列です。
"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"
ADDRESS_RENAME_SPECIAL_CHAR_MAP
これらは、アドレス文字列を正規化するときに名前が変更される特殊文字文字列です。
"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"
ハッシュ
-
TRIM = 先頭と末尾の空白をトリミングする
Source_ID
-
TRIM = 先頭と末尾の空白をトリミングする
正規化 (ApplyNormalization) – ML ベースのみ
スキーマで定義されているように入力データを正規化するかどうかを選択します。正規化は、余分なスペースや特殊文字を削除し、小文字の形式に標準化することで、データを標準化します。
例えば、入力フィールドの入力タイプが でNAME
、入力テーブルの値が としてフォーマットされている場合Johns Smith
、 AWS Entity Resolution は値を に正規化しますjohn smith
。
以下のセクションでは、機械学習ベースのマッチングワークフローの正規化ルールについて説明します。
トピック
名前
-
TRIM = 先頭と末尾の空白をトリムする
-
LOWERCASE = すべての英字を小文字に
Email(メール)
-
LOWERCASE = すべての英字を小文字にします
-
(at)(大文字と小文字を区別) のみを @ 記号に置き換えます
-
値内の任意の場所にあるすべての空白を削除します
-
存在する
"<
>"
場合、最初の の外部にあるすべてのものを削除します
電話
-
TRIM = 先頭と末尾の空白をトリミングする
-
REMOVE_ALL_NON_NUMERIC = 数値以外の文字をすべて削除します [0~9]
-
REMOVE_ALL_LEADING_ZEROES = 先頭のゼロをすべて削除します
-
ENSURE_PREFIX_WITH_MAP,phonePrefixMap「」 = 各電話番号を調べ、 のパターンと照合しようとします phonePrefixMap。一致が見つかった場合、ルールは電話番号のプレフィックスを追加または変更し、マップで指定された標準化された形式に準拠します。
One-to-One マッチング
One-to-one マッチングは、類似データの単一インスタンスを比較します。同じ入力フィールドに同じ一致キーと値を持つ入力フィールドは、互いに照合されます。
例えば、 mobile_phone
や と同じ一致キーである「Phonehome_phone
」を持つ複数の電話番号入力フィールドがあるとします。 one-to-one マッチングを使用して、mobile_phone
入力フィールド内のデータとmobile_phone
入力フィールド内のデータを比較し、home_phone
入力フィールド内のデータとhome_phone
入力フィールド内のデータを比較します。mobile_phone
入力フィールドのデータは、home_phone
入力フィールドのデータと比較されません。
一致ルールは、同じ一致キーを持つ複数の入力フィールドのデータを (または) オペレーションで評価し one-to-many、一致は 1 つの入力フィールド内の値を比較します。つまり、2 つのレコード間で mobile_phone
または がhome_phone
一致すると、「電話」一致キーは一致を返します。一致キー「Phone」で一致を検索するには、Record One mobile_phone = Record Two mobile_phone
または を使用しますRecord One home_phone = Record Two home_phone
。
一致ルールは、異なる一致キーを持つ入力フィールド内のデータを (および) オペレーションで評価します。ルールベースのマッチングで異なるタイプの電話番号情報を完全に個別に検討する場合は、「mobile_phone」や「home_phone」などのより具体的なマッチングキーを作成できます。ルールで両方の一致キーを使用して一致を検索する場合は、Record One mobile_phone = Record Two mobile_phone
ANDRecord One home_phone = Record Two home_phone
。
出力
オブジェクトのリスト。各OutputAttributeオブジェクトには、名前 フィールドとハッシュ フィールドがあります。これらのオブジェクトはそれぞれ、 AWS Glue 出力テーブルに含める列と、列内の値をハッシュするかどうかを表します。
OutputS3Path
出力テーブルを AWS Entity Resolution 書き込む S3 送信先。
OutputSourceConfig
オブジェクトのリスト。各 OutputSource オブジェクトには、OutputS3Path、ApplyNormalization、および Output フィールドがあります。
プロバイダーのサービスベースのマッチング
プロバイダーのサービスベースのマッチングは、優先データサービスプロバイダーとライセンスされたデータセットとレコードを照合、リンク、強化するプロセスです。このマッチング手法を使用するには、プロバイダーサービス AWS Data Exchange で のサブスクリプションが必要です。
AWS Entity Resolution は現在、次のデータサービスプロバイダーと統合されています。
-
LiveRamp
-
TransUnion
-
UID 2.0
ルールベースのマッチング
ルールベースのマッチングは、完全一致を見つけるように設計されたプロセスです。ルールベースのマッチングは、入力したデータに基づいて が提案するウォーターフォールマッチングルールの階層セットで AWS Entity Resolution、ユーザーが完全に設定可能です。ルール条件内で提供されるすべての一致キーは、一致を宣言する比較データと、関連するメタデータを出力する比較データと完全に一致する必要があります。ルールベースの一致は、一致したデータセットごとに一致 ID とルール番号を返します。
エンティティを一意に識別できるルールを定義することをお勧めします。ルールを注文して、より正確な一致を最初に見つけます。
例えば、ルール 1 とルール 2 の 2 つのルールがあるとします。
これらのルールには、次の一致キーがあります。
-
ルール 1 にはフルネームと住所が含まれます
-
ルール 2 にはフルネーム、住所、電話番号が含まれます
ルール 1 が最初に実行されるため、ルール 2 では一致は検出されません。すべてルール 1 で検出されるためです。
電話によって区別される一致を検索するには、次のようにルールの順序を変更します。
-
ルール 2 にはフルネーム、住所、電話番号が含まれます
-
ルール 1 にはフルネームと住所が含まれます
Schema
一連のデータの整理と接続方法を定義する構造またはレイアウトに使用される用語。
スキーマの説明
入力できるスキーマのオプションの説明。説明は、複数のスキーママッピングを作成する場合のスキーママッピングの区別に役立ちます。
スキーマ名
スキーマの名前。
注記
スキーマ名は一意である必要があります。同じ名前にすることはできません。そうしないとエラーが返されます。
スキーママッピング
のスキーママッピング AWS Entity Resolution は、マッチングのためにデータを解釈 AWS Entity Resolution する方法を説明するプロセスです。一致するワークフローに AWS Entity Resolution 読み込む入力データテーブルのスキーマを定義します。
スキーママッピング ARN
スキーママッピング 用に生成された Amazon リソースネーム (ARN)。 スキーママッピング
一意の ID
指定した一意の識別子で、 AWS Entity Resolution 読み取りする入力データの各行に割り当てる必要があります。
たとえば、Primary_key
、Row_ID
、または Record_ID
などです。
一意の ID 列は必須です。
一意の ID は、単一のテーブル内の一意の識別子である必要があります。
異なるテーブル全体で、一意の ID に重複した値を含めることができます。
一致するワークフローが実行されると、一意の ID が の場合、レコードは拒否されます。
-
が指定されていません
-
は同じテーブル内で一意ではありません
-
は、ソース間で属性名の点で重複しています。
-
が 38 文字を超えています (ルールベースのマッチングワークフローのみ)