Variables - Amazon Fraud Detector

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Variables

变量表示您要在欺诈预测中使用的数据元素。这些变量可以取自您为训练模型准备的事件数据集、您的 Amazon Fraud Detector 模型的风险评分输出或亚马逊SageMaker模型。有关取自事件数据集的变量的更多信息,请参阅使用数据模型浏览器获取事件数据集要求

在创建事件类型时,必须先创建要在欺诈预测中使用的变量,然后将其添加到事件中。必须为创建的每个变量分配一个数据类型、一个默认值和一个可选的变量类型。Amazon Fraud Detector 丰富了您提供的一些变量,例如 IP 地址、银行识别码 (BIN) 和电话号码,以创建额外的输入并提高使用这些变量的模型的性能。

数据类型

变量必须具有该变量所代表的数据元素的数据类型,并且可以选择为其分配预定义的数据元素之一变量类型。对于分配给变量类型的变量,数据类型是预先选择的。可能的数据类型包括以下类型:

数据类型 描述 默认值 示例值
字符串 字母、整数或两者的任意组合 <empty>

abc,123,1D3B

整数 正整数或负整数 0 1,-1
布尔值 对还是错 False 真的,错误的
DateTime 仅以 ISO 8601 标准 UTC 格式指定的日期和时间 <empty> 2019-11-30T 13:01:01 Z
Float 带小数点的数字 0.0 4.01、0.10

默认值

变量必须有默认值。当 Amazon Fraud Detector 生成欺诈预测时,如果亚马逊欺诈检测器未收到变量的值,则使用此默认值来运行规则或模型。您提供的默认值必须与选定的数据类型相匹配。在 AWS 控制台中,Amazon Fraud Detector 0 为整数、布尔值、false浮点数分配默认值为,0.0为字符串分配默认值(空)。您可以为这些数据类型中的任何一个设置自定义默认值。

变量类型

创建变量时,可以选择将变量分配给变量类型。变量类型表示用于训练模型和生成欺诈预测的常见数据元素。只有具有关联变量类型的变量才能用于模型训练。作为模型训练过程的一部分,Amazon Fraud Detector 使用与变量关联的变量类型来执行变量丰富、特征工程和风险评分。

Amazon Fraud Detector 预定义了以下可用于分配给您的变量的变量类型。

类别 变量类型 描述 数据类型 示例
会话 IP_ADDRESS 活动期间收集的 IP 地址 字符串 192.0.2.0

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强

用户代理 活动期间收集的用户代理 字符串 Mozilla 5.0(Windows NT 10.0、Win64、x64、rv: 68.0)Gecko 20100101
指纹 用于事件的设备的唯一标识符 字符串 sadfow987u234
SESSION_ID 事件活动会话的会话 ID 字符串 sid123456789
证书是否有效 表示用于活动登录的凭证是否有效 布尔值 True
用户 电子邮件地址 活动期间收集的电子邮件地址 字符串 abc@domain.com
PHONE_NUMBER 活动期间收集的电话号码 字符串 +1 555-0100

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 充实电话号码

计费 账单名称 与账单地址相关的名称 字符串 John Doe
计费电话 与账单地址关联的电话号码 字符串 +1 555-0100

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 充实电话号码

账单地址_L1 账单地址的第一行 字符串 任何街道
账单地址_L2 账单地址的第二行 字符串 任何单位 123
账单_CITY 账单地址中的城市 字符串 任何城市
账单状态 账单地址中的州或省 字符串 任何州或省
计费国家 账单地址中的国家 字符串 任何国家

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强

BILL_ZIP 账单地址中的邮政编码 字符串 01234

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强

配送 配送_名称 与送货地址相关的名称 字符串 John Doe
配送电话 与送货地址关联的电话号码 字符串 +1 555-0100

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 充实电话号码

配送地址_L1 配送地址的第一行 字符串 123 Any Street
配送地址_L2 送货地址的第二行 字符串 第 123 单元
航运城市 配送地址中的城市 字符串 任何城市
配送状态 配送地址中的州或省 字符串 任何州
配送国家 配送地址中包含的国家/地区 字符串 任何国家

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强

SPIPPING_ZIP 配送地址中的邮政编码 字符串 01234

注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强

付款 订单_ID 交易的唯一标识符 字符串 LUX60
价格 订单总价 字符串 560.00
CURRENCY_COD ISO 4217 货币代码 字符串 USD
付款类型 活动期间用于付款的付款方式 字符串 信用卡
身份验证码 由信用卡发卡机构或发卡银行发送的字母数字代码 字符串 0000
AVS 来自卡处理器的地址验证系统 (AVS) 响应码 字符串
产品 产品类别 订单商品的产品类别 字符串 厨房
自定义 NUMERIC 任何可以表示为实数的变量 Float 1.224
CATEGORICAL 描述类别、区段或组的任何变量 字符串 大型
自由表单文本 作为活动一部分捕获的任何自由格式文本(例如,客户评论或评论) 字符串 自由格式文本输入的示例

将变量分配给变量类型

如果您计划使用变量来训练模型,请务必选择正确的变量类型来分配给该变量。不正确的变量类型分配可能会对模型性能产生负面影响。以后更改赋值也可能变得非常困难,尤其是在多个模型和事件都使用了该变量的情况下。

您可以为变量分配任何一种预定义的变量类型或一种自定义变量类型 — FREE_FORM_TEXT CATEGORICAL、或NUMERIC

将变量分配给正确的变量类型的重要注意事项

  1. 如果变量与预定义的变量类型之一匹配,请使用它。确保变量类型与变量相对应。例如,如果您将 ip_add ress 变量分配给EMAIL_ADDRESS变量类型,则 ip_address 变量将无法获得 ASN、ISP、地理位置和风险评分等丰富内容。有关更多信息,请参阅变量丰富

  2. 如果变量与任何预定义的变量类型都不匹配,请按照下面列出的建议分配一种自定义变量类型。

  3. CATEGORICAL变量类型分配给通常没有自然排序的变量,可以分为类别、段或组。你用来训练模型的数据集可能有 ID 变量,例如 m erchant_id、campaign_i d 或 policy _i d。这些变量代表群组(例如,所有具有相同 policy_id 的客户代表一个群组)。必须为具有以下数据的变量分配 CATEGORICAL 变量类型-

    • 包含诸如 customer_ID、segment_ID、color _ID 、depart_code 或 product_ID 等数据的变量。

    • 包含具有真、假或空值的布尔数据的变量。

    • 可以分组或类别的变量,例如公司名称、产品类别、卡片类型或推荐媒介。

    注意

    ENTITY_ID是亚马逊欺诈检测器用于分配给 ENTITY_ID 变量的保留变量类型。ENTITY_ID 变量是启动您要评估的操作的实体的 ID。如果您正在创建交易欺诈洞察 (TFI) 模型类型,则需要提供 ENTITY_ID 变量。您需要决定数据中的哪个变量可以唯一标识启动操作的实体,并将其作为 ENTITY_ID 变量传递。将 CATEGORICAL 变量类型分配给数据集中的所有其他 ID,前提是它们存在且您正在使用它们进行模型训练。在您的数据集中不是实体的其他 ID 的示例可以是 m erchant_ID、p olicy_ID 和 campaign_ ID

  4. 为包含文本块的变量分配FREE_FORM_TEXT变量类型。FREE_FORM_TEXT 变量类型的示例有 — 用户评论评论日期和推荐代码。FREE_FORM_TEXT 数据包含多个由分隔符分隔的标记。分隔符可以是字母数字和下划线符号以外的任何字符。例如,用户评论和评论可以用 “空格” 分隔符,日期和推荐代码可以使用连字符作为分隔符来分隔前缀、后缀和中间部分。亚马逊欺诈检测器使用分隔符从 FREE_FORM_TEXT 变量中提取数据。

  5. NUMER IC 变量类型分配给实数且具有固有顺序的变量。数值变量的示例包括每周天数、事件严重程度、客户评级。尽管您可以为这些变量分配 CATEGORICAL 变量类型,但我们强烈建议将所有具有固有顺序的实数变量分配给 NUMERIC 变量类型。

变量丰富

Amazon Fraud Detector 丰富了您提供的一些原始数据元素,例如 IP 地址、银行识别码 (BIN) 和电话号码,以创建额外的输入并提高使用这些数据元素的模型的性能。丰富信息有助于识别潜在的可疑情况,并帮助模型捕获更多欺诈行为。

充实电话号码

Amazon Fraud Detector 使用与地理位置、原始承运人和电话号码有效性相关的其他信息丰富了电话号码数据。对于在 2021 年 12 月 13 日当天或之后接受培训且电话号码包含国家/地区代码 (+xxx) 的所有模特,将自动启用电话号码增强功能。如果您在模型中加入了电话号码变量并在 2021 年 12 月 13 日之前对其进行了训练,请重新训练您的模型,使其能够利用这种扩充功能。

我们强烈建议您对电话号码变量使用以下格式,以确保成功丰富您的数据。

变量 格式 描述
PHONE_NUMBER E.164 标准 确保在电话号码中包含国家/地区代码 (+xxx)。
计费电话和配送电话 E.164 标准 确保在电话号码中包含国家/地区代码 (+xxx)。

地理定位增强

2022 年 2 月 8 日起,亚马逊欺诈检测器将计算您为活动提供的 IP_ADDRESS、BILLING_ZIP 和 SHIPPING_ZIP 值之间的物理距离。计算出的距离用作欺诈检测模型的输入。

要启用地理位置增强功能,您的事件数据必须包含三个变量中的至少两个:IP_ADDRESS、BILLING_ZIP 或 SHIPPING_ZIP。此外,每个 BILLING_ZIP 和 SHIPPING_ZIP 值必须分别具有有效的 BILLING_COUNTRY 代码和 SHIPPING_COUNTRY 代码。如果您的模型在 2022 年 2 月 8 日之前经过训练且包含这些变量,则必须重新训练该模型以启用地理位置增强功能。

如果由于数据无效,亚马逊欺诈检测器无法确定与事件的 IP_ADDRESS、BILLING_ZIP 或 SHIPPING_ZIP 值关联的位置,则改用特殊的占位符值。例如,假设某个事件具有有效的 IP_ADDRESS 和 BILLING_ZIP 值,但是 SHIPPING_ZIP 值无效。在这种情况下,仅对 IP_ADDRESS—> BILLING_ZIP 进行扩充。IP_ADDRESS—>SHIPPING_ZIP 和 BILLING_ZIP—>SHIPPING_ZIP 的丰富功能尚未完成。取而代之的是,使用占位符值来代替它们。无论您的模型是否启用了地理位置丰富,模型的性能都不会改变。

你可以通过将你的 BILLING_ZIP 和 SHIPPING_ZIP 变量映射到 CUSTOM_CATEGORICAL 变量类型来选择退出地理位置增强功能。更改变量类型不会影响模型的性能。

地理位置变量格式

我们强烈建议您对地理位置变量使用以下格式,以确保成功丰富您的位置数据。

变量 格式 描述
IP_ADDRESS IPv4 地址 例如-1.1.1.1
账单_ZIP 和 shipping_ZIP 指定国家/地区的 ISO 3166-1 alpha-2 邮政编码 有关更多信息,请参阅本主题中的国家和地区代码部分。
计费国家/地区和配送国家 ISO 3166-1 alpha-2 由两个字母组成的标准国家/地区代码 有关更多信息,请参阅本主题中的国家和地区代码部分。Amazon Fraud Detector 尝试将一个国家/地区名称的所有常见变体与其 ISO 3166-1 双字母标准国家/地区代码进行匹配。但是,我们不能保证它们会被正确匹配。

下表提供了 Amazon Fraud Detector 支持用于丰富地理位置的国家和地区的完整列表。每个国家和地区都有指定的国家/地区代码(特别是 ISO 3166-1 alpha-2 由两个字母组成的国家/地区代码)和邮政编码。

邮政编码格式

  • 9-数字

  • a-字母

  • [X]-X 是可选的。例如,Guersney “GY9 [9] 9aa” 表示 “GY9 9aa” 和 “GY99 9aa” 均有效。使用一种格式。

  • [X/XX]-可以使用 X 或 XX。例如,百慕大 “aa [aa/99]” 表示 “aa aa” 和 “aa 99” 均有效。使用这些格式中的任何一种,但不要同时使用这两种格式。

  • 一些国家有固定的前缀。例如,安道尔的邮政编码为 AD999。这意味着国家/地区代码必须以字母 AD 开头,然后是三个数字。

代码 名称 邮政编码
广告 安道尔 AD999
AR 荷属安的列斯 9999
AT 奥地利 9999
AU 澳大利亚 9999
AZ 阿塞拜疆 AZ 9999
BD 孟加拉国 9999
比利时 9999
BG 保加利亚 9999
BM 百慕大 aa [aa/99]
BY 白俄罗斯 999999
CA 加拿大 a9a 9a9
CH 瑞士 9999
CL 智利 9999999
CO 哥伦比亚 999999
CR 哥斯达黎加 99999
CY 塞浦路斯 9999
CZ 捷克 999 99
德国 德国 99999
DK 丹麦 9999
DO 多米尼加共和国 99999
DZ 阿尔及利亚 99999
EE 爱沙尼亚 99999
ES 西班牙 99999
如果 芬兰 99999
FM 密克罗尼西亚联邦 99999
FO 法罗群岛 999
FR 法国 99999
GB 英国 a [a] 9 [a/9] 9aa
GG 根西岛 GY9 [9] 9aa
GL 格陵兰 9999
GP 瓜德罗普 99999
GT 危地马拉 99999
GU 关岛 99999
人力资源 克罗地亚 99999
匈牙利 9999
IE 爱尔兰 a99 [a/9] [a/9] [a/9] [a/9]
IM 马恩岛 IM9 [9] 9aa
IN 印度 999999
IS 冰岛 999
意大利 99999
JE 泽西岛 JE9 [9] 9aa
日本 日本 999-9999
KR 大韩民国 99999
LI 列支敦士登 9999
LK Sri Lanka 99999
LT 立陶宛 99999
LU 卢森堡 L9999
LV 拉脱维亚 LV-9999
MC 摩纳哥 99999
MD 摩尔多瓦共和国 9999
MH 马绍尔群岛 99999
MK 北马其顿 9999
MP 北马里亚纳群岛 99999
MQ 马提尼克 99999
公吨 马耳他 aaa 9999
MX 墨西哥 99999
我的 马来西亚 99999
NL 荷兰 9999 aa
挪威 9999
NZ 新西兰 9999
PH 菲律宾 9999
PK 巴基斯坦 99999
PL 波兰 99-999
PR 波多黎各 99999
PT 葡萄牙 9999-999
PW 帕劳群岛 99999
回复

重聚

99999
RO 罗马尼亚 999999
RU 俄罗斯联邦 999999
SE 瑞典 999 99
SG 新加坡 999999
斯洛文尼亚 9999
SK 斯洛伐克 999 99
SM 圣马力诺 99999
泰国 99999
TR 土耳其 99999
UA 乌克兰 99999
US 美国 99999
伙计 乌拉圭 99999
美属维尔京群岛 99999
WF 瓦利斯和富图纳群岛 99999
还有 马约特岛 99999
ZA 南非 9999

增强用户代理

如果您创建 Account Takeoer Insights (ATI) 模型,则必须在数据集中提供useragent变量类型的变量。此变量包含登录事件的浏览器、设备和操作系统数据。Amazon Fraud Detector 使用诸如user_agent_familyOS_family和之类的附加信息丰富了用户代理数据。device_family