本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Variables
变量表示您要在欺诈预测中使用的数据元素。这些变量可以取自您为训练模型准备的事件数据集、您的 Amazon Fraud Detector 模型的风险评分输出或亚马逊SageMaker模型。有关取自事件数据集的变量的更多信息,请参阅使用数据模型浏览器获取事件数据集要求。
在创建事件类型时,必须先创建要在欺诈预测中使用的变量,然后将其添加到事件中。必须为创建的每个变量分配一个数据类型、一个默认值和一个可选的变量类型。Amazon Fraud Detector 丰富了您提供的一些变量,例如 IP 地址、银行识别码 (BIN) 和电话号码,以创建额外的输入并提高使用这些变量的模型的性能。
数据类型
变量必须具有该变量所代表的数据元素的数据类型,并且可以选择为其分配预定义的数据元素之一变量类型。对于分配给变量类型的变量,数据类型是预先选择的。可能的数据类型包括以下类型:
数据类型 | 描述 | 默认值 | 示例值 |
---|---|---|---|
字符串 | 字母、整数或两者的任意组合 | <empty> |
abc,123,1D3B |
整数 | 正整数或负整数 | 0 | 1,-1 |
布尔值 | 对还是错 | False | 真的,错误的 |
DateTime | 仅以 ISO 8601 标准 UTC 格式指定的日期和时间 | <empty> | 2019-11-30T 13:01:01 Z |
Float | 带小数点的数字 | 0.0 | 4.01、0.10 |
默认值
变量必须有默认值。当 Amazon Fraud Detector 生成欺诈预测时,如果亚马逊欺诈检测器未收到变量的值,则使用此默认值来运行规则或模型。您提供的默认值必须与选定的数据类型相匹配。在 AWS 控制台中,Amazon Fraud Detector 0
为整数、布尔值、false
浮点数分配默认值为,0.0
为字符串分配默认值(空)。您可以为这些数据类型中的任何一个设置自定义默认值。
变量类型
创建变量时,可以选择将变量分配给变量类型。变量类型表示用于训练模型和生成欺诈预测的常见数据元素。只有具有关联变量类型的变量才能用于模型训练。作为模型训练过程的一部分,Amazon Fraud Detector 使用与变量关联的变量类型来执行变量丰富、特征工程和风险评分。
Amazon Fraud Detector 预定义了以下可用于分配给您的变量的变量类型。
类别 | 变量类型 | 描述 | 数据类型 | 示例 |
---|---|---|---|---|
会话 | IP_ADDRESS | 活动期间收集的 IP 地址 | 字符串 | 192.0.2.0 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强 |
用户代理 | 活动期间收集的用户代理 | 字符串 | Mozilla 5.0(Windows NT 10.0、Win64、x64、rv: 68.0)Gecko 20100101 | |
指纹 | 用于事件的设备的唯一标识符 | 字符串 | sadfow987u234 | |
SESSION_ID | 事件活动会话的会话 ID | 字符串 | sid123456789 | |
证书是否有效 | 表示用于活动登录的凭证是否有效 | 布尔值 | True | |
用户 | 电子邮件地址 | 活动期间收集的电子邮件地址 | 字符串 | abc@domain.com |
PHONE_NUMBER | 活动期间收集的电话号码 | 字符串 | +1 555-0100 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 充实电话号码 |
|
计费 | 账单名称 | 与账单地址相关的名称 | 字符串 | John Doe |
计费电话 | 与账单地址关联的电话号码 | 字符串 | +1 555-0100 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 充实电话号码 |
|
账单地址_L1 | 账单地址的第一行 | 字符串 | 任何街道 | |
账单地址_L2 | 账单地址的第二行 | 字符串 | 任何单位 123 | |
账单_CITY | 账单地址中的城市 | 字符串 | 任何城市 | |
账单状态 | 账单地址中的州或省 | 字符串 | 任何州或省 | |
计费国家 | 账单地址中的国家 | 字符串 | 任何国家 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强 |
|
BILL_ZIP | 账单地址中的邮政编码 | 字符串 | 01234 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强 |
|
配送 | 配送_名称 | 与送货地址相关的名称 | 字符串 | John Doe |
配送电话 | 与送货地址关联的电话号码 | 字符串 | +1 555-0100 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 充实电话号码 |
|
配送地址_L1 | 配送地址的第一行 | 字符串 | 123 Any Street | |
配送地址_L2 | 送货地址的第二行 | 字符串 | 第 123 单元 | |
航运城市 | 配送地址中的城市 | 字符串 | 任何城市 | |
配送状态 | 配送地址中的州或省 | 字符串 | 任何州 | |
配送国家 | 配送地址中包含的国家/地区 | 字符串 | 任何国家 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强 |
|
SPIPPING_ZIP | 配送地址中的邮政编码 | 字符串 | 01234 注意:亚马逊欺诈检测器丰富了这些数据。有关更多信息,请参阅 地理定位增强 |
|
付款 | 订单_ID | 交易的唯一标识符 | 字符串 | LUX60 |
价格 | 订单总价 | 字符串 | 560.00 | |
CURRENCY_COD | ISO 4217 货币代码 | 字符串 | USD | |
付款类型 | 活动期间用于付款的付款方式 | 字符串 | 信用卡 | |
身份验证码 | 由信用卡发卡机构或发卡银行发送的字母数字代码 | 字符串 | 0000 | |
AVS | 来自卡处理器的地址验证系统 (AVS) 响应码 | 字符串 | 是 | |
产品 | 产品类别 | 订单商品的产品类别 | 字符串 | 厨房 |
自定义 | NUMERIC | 任何可以表示为实数的变量 | Float | 1.224 |
CATEGORICAL | 描述类别、区段或组的任何变量 | 字符串 | 大型 | |
自由表单文本 | 作为活动一部分捕获的任何自由格式文本(例如,客户评论或评论) | 字符串 | 自由格式文本输入的示例 |
将变量分配给变量类型
如果您计划使用变量来训练模型,请务必选择正确的变量类型来分配给该变量。不正确的变量类型分配可能会对模型性能产生负面影响。以后更改赋值也可能变得非常困难,尤其是在多个模型和事件都使用了该变量的情况下。
您可以为变量分配任何一种预定义的变量类型或一种自定义变量类型 — FREE_FORM_TEXT
CATEGORICAL
、或NUMERIC
。
将变量分配给正确的变量类型的重要注意事项
-
如果变量与预定义的变量类型之一匹配,请使用它。确保变量类型与变量相对应。例如,如果您将 ip_add ress 变量分配给
EMAIL_ADDRESS
变量类型,则 ip_address 变量将无法获得 ASN、ISP、地理位置和风险评分等丰富内容。有关更多信息,请参阅变量丰富: -
如果变量与任何预定义的变量类型都不匹配,请按照下面列出的建议分配一种自定义变量类型。
-
将
CATEGORICAL
变量类型分配给通常没有自然排序的变量,可以分为类别、段或组。你用来训练模型的数据集可能有 ID 变量,例如 m erchant_id、campaign_i d 或 policy _i d。这些变量代表群组(例如,所有具有相同 policy_id 的客户代表一个群组)。必须为具有以下数据的变量分配 CATEGORICAL 变量类型--
包含诸如 customer_ID、segment_ID、color _ID 、depart_code 或 product_ID 等数据的变量。
-
包含具有真、假或空值的布尔数据的变量。
-
可以分组或类别的变量,例如公司名称、产品类别、卡片类型或推荐媒介。
注意
ENTITY_ID
是亚马逊欺诈检测器用于分配给 ENTITY_ID 变量的保留变量类型。ENTITY_ID 变量是启动您要评估的操作的实体的 ID。如果您正在创建交易欺诈洞察 (TFI) 模型类型,则需要提供 ENTITY_ID 变量。您需要决定数据中的哪个变量可以唯一标识启动操作的实体,并将其作为 ENTITY_ID 变量传递。将 CATEGORICAL 变量类型分配给数据集中的所有其他 ID,前提是它们存在且您正在使用它们进行模型训练。在您的数据集中不是实体的其他 ID 的示例可以是 m erchant_ID、p olicy_ID 和 campaign_ ID。 -
-
为包含文本块的变量分配
FREE_FORM_TEXT
变量类型。FREE_FORM_TEXT 变量类型的示例有 — 用户评论、评论、日期和推荐代码。FREE_FORM_TEXT 数据包含多个由分隔符分隔的标记。分隔符可以是字母数字和下划线符号以外的任何字符。例如,用户评论和评论可以用 “空格” 分隔符,日期和推荐代码可以使用连字符作为分隔符来分隔前缀、后缀和中间部分。亚马逊欺诈检测器使用分隔符从 FREE_FORM_TEXT 变量中提取数据。 -
将 NUMER IC 变量类型分配给实数且具有固有顺序的变量。数值变量的示例包括每周天数、事件严重程度、客户评级。尽管您可以为这些变量分配 CATEGORICAL 变量类型,但我们强烈建议将所有具有固有顺序的实数变量分配给 NUMERIC 变量类型。
变量丰富
Amazon Fraud Detector 丰富了您提供的一些原始数据元素,例如 IP 地址、银行识别码 (BIN) 和电话号码,以创建额外的输入并提高使用这些数据元素的模型的性能。丰富信息有助于识别潜在的可疑情况,并帮助模型捕获更多欺诈行为。
充实电话号码
Amazon Fraud Detector 使用与地理位置、原始承运人和电话号码有效性相关的其他信息丰富了电话号码数据。对于在 2021 年 12 月 13 日当天或之后接受培训且电话号码包含国家/地区代码 (+xxx) 的所有模特,将自动启用电话号码增强功能。如果您在模型中加入了电话号码变量并在 2021 年 12 月 13 日之前对其进行了训练,请重新训练您的模型,使其能够利用这种扩充功能。
我们强烈建议您对电话号码变量使用以下格式,以确保成功丰富您的数据。
地理定位增强
从 2022 年 2 月 8 日起,亚马逊欺诈检测器将计算您为活动提供的 IP_ADDRESS、BILLING_ZIP 和 SHIPPING_ZIP 值之间的物理距离。计算出的距离用作欺诈检测模型的输入。
要启用地理位置增强功能,您的事件数据必须包含三个变量中的至少两个:IP_ADDRESS、BILLING_ZIP 或 SHIPPING_ZIP。此外,每个 BILLING_ZIP 和 SHIPPING_ZIP 值必须分别具有有效的 BILLING_COUNTRY 代码和 SHIPPING_COUNTRY 代码。如果您的模型在 2022 年 2 月 8 日之前经过训练且包含这些变量,则必须重新训练该模型以启用地理位置增强功能。
如果由于数据无效,亚马逊欺诈检测器无法确定与事件的 IP_ADDRESS、BILLING_ZIP 或 SHIPPING_ZIP 值关联的位置,则改用特殊的占位符值。例如,假设某个事件具有有效的 IP_ADDRESS 和 BILLING_ZIP 值,但是 SHIPPING_ZIP 值无效。在这种情况下,仅对 IP_ADDRESS—> BILLING_ZIP 进行扩充。IP_ADDRESS—>SHIPPING_ZIP 和 BILLING_ZIP—>SHIPPING_ZIP 的丰富功能尚未完成。取而代之的是,使用占位符值来代替它们。无论您的模型是否启用了地理位置丰富,模型的性能都不会改变。
你可以通过将你的 BILLING_ZIP 和 SHIPPING_ZIP 变量映射到 CUSTOM_CATEGORICAL 变量类型来选择退出地理位置增强功能。更改变量类型不会影响模型的性能。
地理位置变量格式
我们强烈建议您对地理位置变量使用以下格式,以确保成功丰富您的位置数据。
变量 | 格式 | 描述 |
---|---|---|
IP_ADDRESS | IPv4 地址 |
例如-1.1.1.1 |
账单_ZIP 和 shipping_ZIP | 指定国家/地区的 ISO 3166-1 alpha-2 |
有关更多信息,请参阅本主题中的国家和地区代码部分。 |
计费国家/地区和配送国家 | ISO 3166-1 alpha-2 由两个字母组成的 |
有关更多信息,请参阅本主题中的国家和地区代码部分。Amazon Fraud Detector 尝试将一个国家/地区名称的所有常见变体与其 ISO 3166-1 双字母标准国家/地区代码进行匹配。但是,我们不能保证它们会被正确匹配。 |
下表提供了 Amazon Fraud Detector 支持用于丰富地理位置的国家和地区的完整列表。每个国家和地区都有指定的国家/地区代码(特别是 ISO 3166-1 alpha-2 由两个字母组成的国家/地区代码)和邮政编码。
邮政编码格式
9-数字
a-字母
[X]-X 是可选的。例如,Guersney “GY9 [9] 9aa” 表示 “GY9 9aa” 和 “GY99 9aa” 均有效。使用一种格式。
[X/XX]-可以使用 X 或 XX。例如,百慕大 “aa [aa/99]” 表示 “aa aa” 和 “aa 99” 均有效。使用这些格式中的任何一种,但不要同时使用这两种格式。
一些国家有固定的前缀。例如,安道尔的邮政编码为 AD999。这意味着国家/地区代码必须以字母 AD 开头,然后是三个数字。
代码 | 名称 | 邮政编码 |
---|---|---|
广告 | 安道尔 | AD999 |
AR | 荷属安的列斯 | 9999 |
AT | 奥地利 | 9999 |
AU | 澳大利亚 | 9999 |
AZ | 阿塞拜疆 | AZ 9999 |
BD | 孟加拉国 | 9999 |
是 | 比利时 | 9999 |
BG | 保加利亚 | 9999 |
BM | 百慕大 | aa [aa/99] |
BY | 白俄罗斯 | 999999 |
CA | 加拿大 | a9a 9a9 |
CH | 瑞士 | 9999 |
CL | 智利 | 9999999 |
CO | 哥伦比亚 | 999999 |
CR | 哥斯达黎加 | 99999 |
CY | 塞浦路斯 | 9999 |
CZ | 捷克 | 999 99 |
德国 | 德国 | 99999 |
DK | 丹麦 | 9999 |
DO | 多米尼加共和国 | 99999 |
DZ | 阿尔及利亚 | 99999 |
EE | 爱沙尼亚 | 99999 |
ES | 西班牙 | 99999 |
如果 | 芬兰 | 99999 |
FM | 密克罗尼西亚联邦 | 99999 |
FO | 法罗群岛 | 999 |
FR | 法国 | 99999 |
GB | 英国 | a [a] 9 [a/9] 9aa |
GG | 根西岛 | GY9 [9] 9aa |
GL | 格陵兰 | 9999 |
GP | 瓜德罗普 | 99999 |
GT | 危地马拉 | 99999 |
GU | 关岛 | 99999 |
人力资源 | 克罗地亚 | 99999 |
呼 | 匈牙利 | 9999 |
IE | 爱尔兰 | a99 [a/9] [a/9] [a/9] [a/9] |
IM | 马恩岛 | IM9 [9] 9aa |
IN | 印度 | 999999 |
IS | 冰岛 | 999 |
它 | 意大利 | 99999 |
JE | 泽西岛 | JE9 [9] 9aa |
日本 | 日本 | 999-9999 |
KR | 大韩民国 | 99999 |
LI | 列支敦士登 | 9999 |
LK | Sri Lanka | 99999 |
LT | 立陶宛 | 99999 |
LU | 卢森堡 | L9999 |
LV | 拉脱维亚 | LV-9999 |
MC | 摩纳哥 | 99999 |
MD | 摩尔多瓦共和国 | 9999 |
MH | 马绍尔群岛 | 99999 |
MK | 北马其顿 | 9999 |
MP | 北马里亚纳群岛 | 99999 |
MQ | 马提尼克 | 99999 |
公吨 | 马耳他 | aaa 9999 |
MX | 墨西哥 | 99999 |
我的 | 马来西亚 | 99999 |
NL | 荷兰 | 9999 aa |
否 | 挪威 | 9999 |
NZ | 新西兰 | 9999 |
PH | 菲律宾 | 9999 |
PK | 巴基斯坦 | 99999 |
PL | 波兰 | 99-999 |
PR | 波多黎各 | 99999 |
PT | 葡萄牙 | 9999-999 |
PW | 帕劳群岛 | 99999 |
回复 |
重聚 |
99999 |
RO | 罗马尼亚 | 999999 |
RU | 俄罗斯联邦 | 999999 |
SE | 瑞典 | 999 99 |
SG | 新加坡 | 999999 |
是 | 斯洛文尼亚 | 9999 |
SK | 斯洛伐克 | 999 99 |
SM | 圣马力诺 | 99999 |
第 | 泰国 | 99999 |
TR | 土耳其 | 99999 |
UA | 乌克兰 | 99999 |
US | 美国 | 99999 |
伙计 | 乌拉圭 | 99999 |
六 | 美属维尔京群岛 | 99999 |
WF | 瓦利斯和富图纳群岛 | 99999 |
还有 | 马约特岛 | 99999 |
ZA | 南非 | 9999 |
增强用户代理
如果您创建 Account Takeoer Insights (ATI) 模型,则必须在数据集中提供useragent
变量类型的变量。此变量包含登录事件的浏览器、设备和操作系统数据。Amazon Fraud Detector 使用诸如user_agent_family
OS_family
和之类的附加信息丰富了用户代理数据。device_family