本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
您可以使用 Amazon Comprehend 检测英语或西班牙语文本文档中的个人身份信息实体。PII 实体是一种特定类型的个人身份信息 (PII)。使用 PII 检测来查找 PII 实体或在文本中编辑 PII 实体。
查找 PII 实体
要在文本中查找 PII 实体,您可以使用实时分析快速分析单个文档。您也可以对一组文档启动异步批处理任务。
您可以使用控制台或 API 对单个文档进行实时分析。您的输入文本最多可包含 100 千字节 UTF-8 编码的字符。
例如,您可以提交以下输入文本来查找 PII 实体:
您好,保罗·桑托斯。您的信用卡账户 1111-0000-1111-0000 的最新对账单已邮寄至华盛顿州西雅图市任何街道 123 号,98109。
输出包括以下信息,“保罗·桑托斯”的类型是 NAME
,“1111-0000-1111-0000”的类型是 CREDIT_DEBIT_NUMBER
,“华盛顿州西雅图市任何街123号,98109”的类型是 ADDRESS
。
Amazon Comprehend 会返回检测到的 PII 实体列表,其中包含每个 PII 实体的以下信息:
-
估计检测到的文本跨度是检测到的实体类型的概率的分数。
-
PII 实体类型。
-
PII 实体在文档中的位置,指定为实体开头和结尾的字符偏移量。
例如,前面提到的输入文本会产生以下响应:
{
"Entities": [
{
"Score": 0.9999669790267944,
"Type": "NAME",
"BeginOffset": 6,
"EndOffset": 18
},
{
"Score": 0.8905550241470337,
"Type": "CREDIT_DEBIT_NUMBER",
"BeginOffset": 69,
"EndOffset": 88
},
{
"Score": 0.9999889731407166,
"Type": "ADDRESS",
"BeginOffset": 103,
"EndOffset": 138
}
]
}
编辑 PII 实体
要编辑文本中的 PII 实体,您可以使用控制台或 API 启动异步批处理任务。Amazon Comprehend 返回输入文本的副本,并对每个 PII 实体进行编辑。
例如,您可以提交以下输入文本来编辑 PII 实体:
您好,保罗·桑托斯。您的信用卡账户 1111-0000-1111-0000 的最新对账单已邮寄至华盛顿州西雅图市任何街道 123 号,98109。
输出文件包括以下文本:
您好,***** ******。您的信用卡账户*****************的最新账单已邮寄至*** *** ******* ******* ***** ***** *****。
PII 通用实体类型
某些 PII 实体类型是通用的(并非特定于个别国家),例如电子邮件地址和信用卡号。Amazon Comprehend 可检测到以下类型的通用 PII 实体:
- ADDRESS
-
实际地址,例如“美国任何市 100 号大街”或“123 号楼 12 房”。地址可以包括街道、建筑物、位置、城市、州、国家、县、邮政编码、辖区和社区等信息。
- AGE
-
个人的年龄,包括数量和时间单位。例如,在“我今年 40 岁”这句话中,Amazon Comprehend 将“40 岁”视为一个年龄。
- AWS_ACCESS_KEY
-
与私有访问密钥关联的唯一标识符;您可以使用访问密钥 ID 和私有访问密钥对编程 AWS 请求进行加密签名。
- AWS_SECRET_KEY
-
与访问密钥关联的唯一标识符。您可以使用访问密钥 ID 和私有访问密钥对编程 AWS 请求进行加密签名。
- CREDIT_DEBIT_CVV
-
VISA、 MasterCard、Discover 信用卡和借记卡上显示的三位数信用卡验证码 (CVV)。对于美国运通信用卡或借记卡,CVV 是一个 4 位数的数字代码。
- CREDIT_DEBIT_EXPIRY
-
信用卡或借记卡的到期日期。此数字的长度通常为四位数,通常格式为month/year or MM/YY。Amazon Comprehend 可识别到期日期,例如 01/21、01/2021 和 2021年1月。
- CREDIT_DEBIT_NUMBER
-
信用卡或借记卡的号码。这些数字的长度可以从 13 到 16 位数字不等。但是,当只有最后 4 位数字存在时,Amazon Comprehend 也能识别信用卡或借记卡号。
- DATE_TIME
-
日期可以包括年、月、日、一周中的某一天或一天中的某个时间。例如,Amazon Comprehend 可将“2020 年 1 月 19 日”或“上午 11 点”识别为日期。Amazon Comprehend 可识别部分日期、日期范围和日期间隔。它还可以识别年代,例如“九十年代”。
- DRIVER_ID
-
分配给驾驶执照的号码,驾驶执照是允许个人在公共道路上驾驶一辆或多辆机动车辆的官方文件。驾驶执照号码由字母数字字符组成。
-
电子邮件地址,例如 marymajor@email.com。
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
国际银行账号在每个国家都有特定的格式。请参阅 www.iban.com/struc
。 - IP_ADDRESS
-
一个 IPv4 地址,比如 198.51.100.0。
- LICENSE_PLATE
-
车辆牌照由车辆登记的所在州或国家签发。乘用车的格式通常为 5 到 8 位数,由大写字母和数字组成。格式因签发州或国家的不同而异。
- MAC_ADDRESS
-
媒体访问控制 (MAC) 地址是分配给网络接口控制器 (NIC) 的唯一标识符。
- NAME
-
个人的名字。该实体类型不包括头衔,例如 “博士”、“先生”、“夫人”或“小姐”。Amazon Comprehend 不会将此实体类型应用于作为组织或地址的一部分名称。例如,Amazon Comprehend 将“John Doe 组织”认定为一个组织,它将“Jane Doe Street”识别为地址。
- PASSWORD
-
用作密码的字母数字字符串,例如“*very20special#pass*”。
- PHONE
-
电话号码。该实体类型还包括传真号码和寻呼机号码。
- PIN
-
一个 4 位数的个人身份识别码 (PIN),您可以使用它访问您的银行账户。
- SWIFT_CODE
-
SWIFT 代码是银行识别码 (BIC) 的标准格式,用于指定特定的银行或分行。银行使用这些代码进行汇款,例如国际电汇。
SWIFT 代码由 8 个或 11 个字符组成。11 位数的代码指的是特定的分支机构,而 8 位数的代码(或以“XXX”结尾的 11 位数代码)指的是总部或主要办事处。
- URL
-
一个网址,例如 www.example.com。
- USERNAME
-
用于标识帐户的用户名,例如登录名、屏幕名称、昵称或句柄。
- VEHICLE_IDENTIFICATION_NUMBER
-
车辆识别号码 (VIN) 是车辆的唯一标识。ISO 3779 规范规定了 VIN 内容和格式。每个国家/地区都有特定的代码和格式 VINs.
特定国家/地区的 PII 实体类型
某些 PII 实体类型因国家/地区而异,例如护照号码和其他政府签发的身份证号码。Amazon Comprehend 可检测到以下类型的特定国家/地区 PII 实体:
- CA_HEALTH_NUMBER
-
加拿大医疗服务号码是一个 10 位数的唯一标识符,是个人获得医疗保健福利所必需的。
- CA_SOCIAL_INSURANCE_NUMBER
-
加拿大社会保险号 (SIN) 是一个 9 位数的唯一标识符,是个人获得政府计划和福利所必需的。
SIN 的格式为 3 组 3 位数字,例如 123-456-789。SIN 可以通过一种称为卢恩算法
的简单校验码过程进行验证。 - IN_AADHAAR
-
印度 Aadhaar 是印度政府向印度居民签发的 12 位数唯一身份识别码。Aadhaar 格式在第 4 位和第 8 位数字后面有一个空格或连字符。
- IN_NREGA
-
《印度国家农村就业保障法》(NREGA)编号由两个字母和 14 个数字组成。
- IN_PERMANENT_ACCOUNT_NUMBER
-
印度永久账号是由所得税部门签发的 10 位唯一的字母数字编号。
- IN_VOTER_NUMBER
-
印度选民身份证由 3 个字母和 7 个数字组成。
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
英国国家健康服务号码是一个 10 至 17 位数字,例如 485 777 3456。当前系统对 10 位数字进行格式化,在第 3 位和第 6 位数字之后使用空格。最后一位数字是错误检测的校验和。
17 位数字格式的第 10 位和第 13 位数字后面有空格。
- UK_NATIONAL_INSURANCE_NUMBER
-
英国国民保险号码 (NINO) 为个人提供获得国民保险(社会保障)福利的权限。它在英国税收系统中也用于某些目的。
该数字共有 9 位数字,以两个字母开头,后跟 6 个数字和 1 个字母。可以在两个字母后面以及第 2、第 4 和第 6 位数字之后使用空格或短划线进行格式化 NINO。
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
英国唯一纳税人编号 (UTR) 是一个 10 位数字,用于识别纳税人或企业。
- BANK_ACCOUNT_NUMBER
-
美国银行账号,长度通常为 10 到 12 位数字。当只有最后 4 位数字存在时,Amazon Comprehend 也能识别银行账号。
- BANK_ROUTING
-
美国银行账户的路由号码。这些号码的长度通常为九位数,但是当只有最后 4 位数字存在时,Amazon Comprehend 也可以识别路由号码。
- PASSPORT_NUMBER
-
美国护照编号。护照编码由 6 到 9 个字母数字字符组成。
- US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER
-
美国个人纳税人识别号 (ITIN) 是一个以“9”开头的 9 位数字,第 4 位数字是“7”或“8”。ITIN 可以在第 3 位和第 4 位数字之后使用空格或短划线进行格式化。
- SSN
-
美国社会安全号码 (SSN) 是发放给美国公民、永久居民和临时工作居民的 9 位数号码。当只有最后 4 位数字存在时,Amazon Comprehend 也能识别社会安全号码。