本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
检测PII实体
您可以使用 Amazon Comprehend PII来检测英语或西班牙语文本文档中的实体。PII实体是一种特定类型的个人身份信息 (PII)。使用PII检测来定位文本中的PII实体或对PII实体进行密文。
找到PII实体
要在文本中找到PII实体,您可以使用实时分析快速分析单个文档。您也可以对一组文档启动异步批处理作业。
您可以使用控制台或API对单个文档进行实时分析。您的输入文本最多可以包含 100 千字节的 UTF -8 个编码字符。
例如,您可以提交以下输入文本来定位实PII体:
您好,保罗·桑托斯。您的信用卡账户 1111-0000-1111-0000 的最新对账单已邮寄至华盛顿州西雅图市任何街道 123 号,98109。
输出包括以下信息,“保罗·桑托斯”的类型是 NAME
,“1111-0000-1111-0000”的类型是 CREDIT_DEBIT_NUMBER
,“华盛顿州西雅图市任何街123号,98109”的类型是 ADDRESS
。
Amazon Comprehend 会返回检测到PII的实体的列表,其中包含每个实体的以下信息:PII
-
估计检测到的文本跨度是检测到的实体类型的概率的分数。
-
PII实体类型。
-
PII实体在文档中的位置,指定为实体开头和结尾的字符偏移量。
例如,前面提到的输入文本会产生以下响应:
{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }
编辑实体 PII
要编辑文本中的PII实体,您可以使用控制台或启动异步批处理作业。APIAmazon Comprehend 会返回一份输入文本的副本,其中包含每个实体的密文。PII
例如,您可以提交以下输入文本来对PII实体进行密文:
您好,保罗·桑托斯。您的信用卡账户 1111-0000-1111-0000 的最新对账单已邮寄至华盛顿州西雅图市任何街道 123 号,98109。
输出文件包括以下文本:
您好,***** ******。您的信用卡账户*****************的最新账单已邮寄至*** *** ******* ******* ***** ***** *****。
PII通用实体类型
某些PII实体类型是通用的(并非特定于个别国家),例如电子邮件地址和信用卡号。Amazon Comprehend 检测到以下类型的通用实体:PII
- ADDRESS
-
实际地址,例如 “Anytown 大街 100 号USA” 或 “Suite #12,123 号楼”。地址可以包括街道、建筑物、位置、城市、州、国家、县、邮政编码、辖区和社区等信息。
- AGE
-
个人的年龄,包括数量和时间单位。例如,在“我今年 40 岁”这句话中,Amazon Comprehend 将“40 岁”视为一个年龄。
- AWS_ACCESS_KEY
-
与私有访问密钥关联的唯一标识符;您可以使用访问密钥 ID 和私有访问密钥对编程 AWS 请求进行加密签名。
- AWS_SECRET_KEY
-
与访问密钥关联的唯一标识符。您可以使用访问密钥 ID 和私有访问密钥对编程 AWS 请求进行加密签名。
- CREDIT_DEBIT_CVV
-
VISA、 MasterCard、和 Discover 信用卡和借记卡上显示的三位数信用卡验证码 (CVV)。对于美国运通信用卡或借记卡,CVV是四位数的数字代码。
- CREDIT_DEBIT_EXPIRY
-
信用卡或借记卡的到期日期。此数字的长度通常为四位数,通常格式为month/year or MM/YY。Amazon Comprehend 可识别到期日期,例如 01/21、01/2021 和 2021年1月。
- CREDIT_DEBIT_NUMBER
-
信用卡或借记卡的号码。这些数字的长度可以从 13 到 16 位数字不等。但是,当只有最后 4 位数字存在时,Amazon Comprehend 也能识别信用卡或借记卡号。
- DATE_TIME
-
日期可以包括年、月、日、一周中的某一天或一天中的某个时间。例如,Amazon Comprehend 可将“2020 年 1 月 19 日”或“上午 11 点”识别为日期。Amazon Comprehend 可识别部分日期、日期范围和日期间隔。它还可以识别年代,例如“九十年代”。
- DRIVER_ID
-
分配给驾驶执照的号码,驾驶执照是允许个人在公共道路上驾驶一辆或多辆机动车辆的官方文件。驾驶执照号码由字母数字字符组成。
-
电子邮件地址,例如 marymajor@email.com。
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
国际银行账号在每个国家都有特定的格式。请参阅 www.iban.com/struc
。 - IP_ ADDRESS
-
一个IPv4地址,比如 198.51.100.0。
- LICENSE_PLATE
-
车辆牌照由车辆登记的所在州或国家签发。乘用车的格式通常为 5 到 8 位数,由大写字母和数字组成。格式因签发州或国家的不同而异。
- MAC_ADDRESS
-
媒体访问控制 (MAC) 地址是分配给网络接口控制器 (NIC) 的唯一标识符。
- NAME
-
个人的名字。该实体类型不包括头衔,例如 “博士”、“先生”、“夫人”或“小姐”。Amazon Comprehend 不会将此实体类型应用于作为组织或地址的一部分名称。例如,Amazon Comprehend 将“John Doe 组织”认定为一个组织,它将“Jane Doe Street”识别为地址。
- PASSWORD
-
用作密码的字母数字字符串,例如“*very20special#pass*”。
- PHONE
-
电话号码。该实体类型还包括传真号码和寻呼机号码。
- PIN
-
一个四位数的个人识别码 (PIN),您可以使用它访问您的银行账户。
- SWIFT_CODE
-
SWIFT代码是银行识别码 (BIC) 的标准格式,用于指定特定的银行或分行。银行使用这些代码进行汇款,例如国际电汇。
SWIFT代码由 8 或 11 个字符组成。11 位数的代码指的是特定的分支机构,而 8 位数的代码(或以 “” 结尾的 11 位数代码)XXX指的是总部或主要办公室。
- URL
-
一个网址,例如 www.example.com。
- USERNAME
-
用于标识帐户的用户名,例如登录名、屏幕名称、昵称或句柄。
- VEHICLE_IDENTIFICATION_NUMBER
-
车辆识别码 (VIN) 是车辆的唯一标识。 VIN内容和格式在 ISO 3779 规范中定义。每个国家/地区都有特定的代码和格式VINs.
特定国家/地区的PII实体类型
某些PII实体类型因国家/地区而异,例如护照号码和其他政府签发的身份证号码。Amazon Comprehend 检测到以下类型的特定国家/地区实体:PII
- CA_ _ HEALTH NUMBER
-
加拿大医疗服务号码是一个 10 位数的唯一标识符,是个人获得医疗保健福利所必需的。
- CA_ _ SOCIAL _ INSURANCE NUMBER
-
加拿大社会保险号 (SIN) 是一个九位数的唯一标识符,是个人获得政府计划和福利所必需的。
的格式SIN为三组三位数字,例如 123-456-789。SIN可以通过名为 Luhn
算法的简单校验码过程来验证。 - 在_ AADHAAR
-
印度 Aadhaar 是印度政府向印度居民签发的 12 位数唯一身份识别码。Aadhaar 格式在第 4 位和第 8 位数字后面有一个空格或连字符。
- 在_ NREGA
-
《印度国家农村就业保障法》(NREGA) 编号由两个字母和一个 14 个数字组成。
- IN_ _ PERMANENT _ ACCOUNT NUMBER
-
印度永久账号是由所得税部门签发的 10 位唯一的字母数字编号。
- IN_ _ VOTER NUMBER
-
印度选民身份证由 3 个字母和 7 个数字组成。
- 英国_ _ NATIONAL _ HEALTH _ SERVICE NUMBER
-
英国国家健康服务号码是一个 10 至 17 位数字,例如 485 777 3456。当前系统对 10 位数字进行格式化,在第 3 位和第 6 位数字之后使用空格。最后一位数字是错误检测的校验和。
17 位数字格式的第 10 位和第 13 位数字后面有空格。
- 英国_ _ NATIONAL _ INSURANCE NUMBER
-
英国国民保险号码 (NINO) 为个人提供获得国民保险(社会保障)福利的机会。它在英国税收系统中也用于某些目的。
该数字共有 9 位数字,以两个字母开头,后跟 6 个数字和 1 个字母。NINO可以在两个字母后面以及第二、第四和第六位数字之后使用空格或短划线进行格式化。
- 英国_ _ UNIQUE _ TAXPAYER _ REFERENCE NUMBER
-
英国唯一纳税人参考编号 (UTR) 是一个 10 位数字,用于识别纳税人或企业。
- BANK_ACCOUNT_NUMBER
-
美国银行账号,长度通常为 10 到 12 位数字。当只有最后 4 位数字存在时,Amazon Comprehend 也能识别银行账号。
- BANK_ROUTING
-
美国银行账户的路由号码。这些号码的长度通常为九位数,但是当只有最后 4 位数字存在时,Amazon Comprehend 也可以识别路由号码。
- PASSPORT_NUMBER
-
美国护照编号。护照编码由 6 到 9 个字母数字字符组成。
- 美国_ _ INDIVIDUAL _ TAX _ IDENTIFICATION NUMBER
-
美国个人纳税人识别号 (ITIN) 是一个以 “9” 开头的九位数字,第四位数字包含 “7” 或 “8”。ITIN可以在第三位和第四位数字之后使用空格或短划线进行格式化。
- SSN
-
美国社会安全号码 (SSN) 是一个九位数的号码,发给美国公民、永久居民和临时工作居民。当只有最后 4 位数字存在时,Amazon Comprehend 也能识别社会安全号码。