本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以使用 Amazon Comprehend 來偵測英文或西班牙文文字文件的 PII 實體。PII 實體是特定類型的個人識別資訊 (PII)。使用 PII 偵測來尋找 PII 實體或修改文字中的 PII 實體。
尋找 PII 實體
若要尋找文字中的 PII 實體,您可以使用即時分析快速分析單一文件。您也可以在文件集合上啟動非同步批次工作。
您可以使用 主控台或 API 來即時分析單一文件。您的輸入文字最多可包含 100 KB 的 UTF-8 編碼字元。
例如,您可以提交下列輸入文字來尋找 PII 實體:
Paulo Santos 您好。信用卡帳戶 1111-0000-1111-0000 的最新陳述式已郵寄至 123 Any Street, Seattle, WA 98109。
輸出包含「Paul Santos」具有類型 NAME
、「1111-0000-1111-0000」具有類型 CREDIT_DEBIT_NUMBER
、「123 Any Street, Seattle, WA 98109」具有類型 的資訊ADDRESS
。
Amazon Comprehend 會傳回偵測到的 PII 實體清單,每個 PII 實體的資訊如下:
-
預估偵測到的文字跨度是偵測到的實體類型的機率的分數。
-
PII 實體類型。
-
文件中 PII 實體的位置,指定為實體開頭和結尾的字元位移。
例如,先前提到的輸入文字會產生下列回應:
{
"Entities": [
{
"Score": 0.9999669790267944,
"Type": "NAME",
"BeginOffset": 6,
"EndOffset": 18
},
{
"Score": 0.8905550241470337,
"Type": "CREDIT_DEBIT_NUMBER",
"BeginOffset": 69,
"EndOffset": 88
},
{
"Score": 0.9999889731407166,
"Type": "ADDRESS",
"BeginOffset": 103,
"EndOffset": 138
}
]
}
編輯 PII 實體
若要修訂文字中的 PII 實體,您可以使用 主控台或 API 來啟動非同步批次工作。Amazon Comprehend 會傳回每個 PII 實體的輸入文字複本,其中包含修訂。
例如,您可以提交下列輸入文字來修訂 PII 實體:
Paulo Santos 您好。信用卡帳戶 1111-0000-1111-0000 的最新陳述式已郵寄至 123 Any Street, Seattle, WA 98109。
輸出檔案包含下列文字:
Hello ***** ******。信用卡帳戶的最新陳述式 ******************* 已郵寄至 *** *** ******* ******** ** *****。
PII 通用實體類型
某些 PII 實體類型是通用的 (非特定於個別國家),例如電子郵件地址和信用卡號碼。Amazon Comprehend 會偵測下列類型的通用 PII 實體:
- ADDRESS
-
實體地址,例如 "100 Main Street, Anytown, USA" 或 "Suite #12, Building 123"。地址可以包含街道、建築物、位置、城市、州、國家/地區、郡、郵遞區號、區域和鄰里等資訊。
- AGE
-
個人的年齡,包括數量和時間單位。例如,在「我 40 歲」一詞中,Amazon Comprehend 將「40 歲」視為年齡。
- AWS_ACCESS_KEY
-
與秘密存取金鑰相關聯的唯一識別符;您可以使用存取金鑰 ID 和秘密存取金鑰以密碼編譯方式簽署程式設計 AWS 請求。
- AWS_SECRET_KEY
-
與存取金鑰相關聯的唯一識別符。您可以使用存取金鑰 ID 和私密存取金鑰,以密碼編譯方式簽署程式設計 AWS 請求。
- CREDIT_DEBIT_CVV
-
VISA、MasterCard 和 Discover 信用卡和簽帳金融卡上存在的三位數卡驗證碼 (CVV)。對於 American Express 信用卡或簽帳金融卡,CVV 是四位數數字代碼。
- CREDIT_DEBIT_EXPIRY
-
信用卡或簽帳卡到期日 此數字通常為四位數,且格式通常是月/年或月/年。Amazon Comprehend 會辨識過期日期,例如 01/21、01/2021 和 2021 年 1 月。
- CREDIT_DEBIT_NUMBER
-
信用卡或簽帳卡號碼。這些數字的長度從 13 到 16 位數不等。不過,Amazon Comprehend 也會在只存在最後四位數字時辨識信用卡或簽帳金融卡號碼。
- DATE_TIME
-
日期可以包含年、月、日、星期或時間。例如,Amazon Comprehend 會將「2020 年 1 月 19 日」或「上午 11 點」視為日期。Amazon Comprehend 將辨識部分日期、日期範圍和日期間隔。它也會辨識幾十年,例如「1990 年代」。
- DRIVER_ID
-
指派給駕照的號碼,這是官方文件,允許個人在公有道路上操作一或多個機動車輛。駕照號碼由英數字元組成。
-
電子郵件地址,例如 marymajor@email.com。
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
國際銀行帳號在每個國家都有特定的格式。請參閱 https://www.iban.com/structure
。 - IP_ADDRESS
-
IPv4 地址,例如 198.51.100.0。
- LICENSE_PLATE
-
車輛車牌是由註冊車輛所在的州或國家/地區核發。客車的格式通常為 5 到 8 位數,由大寫字母和數字組成。格式會根據發行狀態或國家/地區而有所不同。
- MAC_ADDRESS
-
媒體存取控制 (MAC) 地址是指派給網路介面控制器 (NIC) 的唯一識別符。
- NAME
-
個人的姓名。此實體類型不包含標題,例如 Dr.、Mr.、Mrs. 或 Miss。Amazon Comprehend 不會將此實體類型套用至屬於組織或地址的名稱。例如,Amazon Comprehend 將 "John Doe Organization" 視為組織,並會將 "Jane Doe Street" 視為地址。
- PASSWORD
-
用作密碼的英數字串,例如 "*very20special#pass*"。
- PHONE
-
電話號碼。此實體類型還包括傳真和呼叫器號碼。
- PIN 碼
-
四位數的個人識別號碼 (PIN),您可以使用它來存取您的銀行帳戶。
- SWIFT_CODE
-
SWIFT 代碼是銀行識別符代碼 (BIC) 的標準格式,用於指定特定的銀行或分支。銀行使用這些代碼進行匯款,例如國際電匯。
SWIFT 代碼由八個或 11 個字元組成。11 位數代碼是指特定的分支,而 8 位數代碼 (或結尾為 'XXX' 的 11 位數代碼) 是指總公司或主要公司。
- URL
-
Web 地址,例如 www.example.com。
- USERNAME
-
識別帳戶的使用者名稱,例如登入名稱、螢幕名稱、暱稱或控點。
- VEHICLE_IDENTIFICATION_NUMBER
-
車輛識別號碼 (VIN) 可唯一識別車輛。ISO 3779 規格中定義了 VIN 內容和格式。每個國家都有 VINs 的特定代碼和格式。
國家特定 PII 實體類型
有些 PII 實體類型是國家特定的,例如護照號碼和其他政府發行的 ID 號碼。Amazon Comprehend 會偵測下列類型的國家/地區特定 PII 實體:
- CA_HEALTH_NUMBER
-
Canadian Health Service Number 是 10 位數的唯一識別符,個人存取醫療保健福利時需要此識別符。
- CA_SOCIAL_INSURANCE_NUMBER
-
加拿大社會保險號碼 (SIN) 是九位數的唯一識別符,個人存取政府計劃和利益時需要此識別符。
SIN 格式為三位數的三組,例如 123-456-789。SIN 可以透過稱為 Luhn 演算法
的簡單檢查位數程序進行驗證。 - IN_AADHAAR
-
Indian Aadhaar 是由印度政府核發給印度居民的 12 位數唯一識別號碼。Aadhaar 格式在第四個和第八個數字之後有空格或連字號。
- IN_NREGA
-
印度國家農村就業保證法 (NREGA) 號碼包含兩個字母,後面接著 14 個數字。
- IN_PERMANENT_ACCOUNT_NUMBER
-
印度永久帳戶號碼是由所得稅部門發行的 10 位數唯一英數字元號碼。
- IN_VOTER_NUMBER
-
印度選民 ID 由三個字母組成,後面接七個數字。
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
UK National Health Service Number 是 10-17 位數字,例如 485 777 3456。目前的系統格式化 10 位數的數字,並在第三位數和第六位數之後加上空格。最後一個數字是偵測錯誤的檢查總和。
17 位數格式在第 10 位數和第 13 位數之後有空格。
- UK_NATIONAL_INSURANCE_NUMBER
-
UK National Insurance Number (NINO) 可讓個人存取 National Insurance (社會安全) 利益。它也用於英國稅務系統中的某些目的。
數字為九位數,開頭為兩個字母,後面接六個數字和一個字母。NINO 可以在兩個字母後面加上空格或破折號,並在第二個、空格和第六個數字後面加上格式。
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
UK Unique Taxpayer Reference (UTR) 是識別納稅人或企業的 10 位數號碼。
- BANK_ACCOUNT_NUMBER
-
美國銀行帳號,通常為 10 到 12 位數。Amazon Comprehend 也會在僅存在最後四位數字時辨識銀行帳戶號碼。
- BANK_ROUTING
-
美國銀行帳戶的分行代碼。這通常為九位數,但 Amazon Comprehend 也會在僅出現最後四位數時識別路由號碼。
- PASSPORT_NUMBER
-
美國護照號碼。護照號碼範圍為 6 到 9 個英數字元。
- US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER
-
美國個人納稅人識別號碼 (ITIN) 是以「9」開頭的九位數號碼,並包含「7」或「8」作為第四位數。ITIN 可以用空格或破折號格式化,以第三個數字結尾。
- SSN
-
美國社會安全號碼 (SSN) 是核發給美國公民、永久居民和臨時工作居民的九位數號碼。當只有最後四位數字時,Amazon Comprehend 也會辨識社會安全號碼。