本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
透過使用自訂資料識別符,您可以定義自訂條件,以偵測 Amazon Simple Storage Service (Amazon S3) 物件中的敏感資料。您可以補充 Amazon Macie 提供的受管資料識別符,並偵測反映組織特定案例、智慧財產權或專屬資料的敏感資料。
每個自訂資料識別符都會指定偵測條件,以及選擇性指定識別符所產生之問題清單的嚴重性設定。偵測條件會指定規則表達式,定義要在 S3 物件中比對的文字模式。條件也可以指定字元序列和縮小結果範圍的鄰近規則。嚴重性設定會指定要指派給問題清單的嚴重性。嚴重性可以根據符合識別符偵測條件的文字出現次數。
偵測條件
當您建立自訂資料識別符時,您可以指定規則運算式 (regex),定義要比對的文字模式。您也可以指定字元序列,例如單字和片語,以及精簡結果的鄰近規則。字元序列可以是:關鍵字,這些關鍵字或片語必須接近符合規則的文字,或忽略單字,這些字詞或片語要從結果中排除。
對於 regex,Amazon Macie 支援 Perl 相容規則表達式 (PCRE) 程式庫
-
反向參考
-
擷取群組
-
條件式模式
-
內嵌程式碼
-
全域模式旗標,例如
/i
、/m
和/x
-
遞迴模式
-
正面和負面的展望和展望零寬度聲明,例如
?=
、?!
、?<=
和?<!
regex 最多可包含 512 個字元。
若要為自訂資料識別符建立有效的 regex 模式,請注意下列提示和建議:
-
只有在您預期模式出現在檔案的開頭或結尾,而不是行的開頭或結尾時,才使用錨點 (
^
或$
)。 -
基於效能原因,Macie 會限制邊界重複群組的大小。例如,
\d{100,1000}
不會在 Macie 中編譯 。若要近似此功能,您可以使用開放式重複,例如\d{100,}
。 -
若要使模式大小寫的部分不區分,您可以使用
(?i)
建構而非/i
旗標。 -
您不需要手動最佳化字首或輪換。例如,
/hello|hi|hey/
將 變更為/h(?:ello|i|ey)/
並不會改善效能。 -
基於效能原因,Macie 會限制重複的萬用字元數量。例如,
a*b*a*
不會在 Macie 中編譯 。
為了防止格式不正確或長時間執行的表達式,Macie 會在您建立自訂資料識別符時,針對範例文字的集合自動測試 regex 模式。如果 regex 發生問題,Macie 會傳回描述問題的錯誤。
除了 regex 之外,您還可以選擇性地指定字元序列和鄰近規則,以精簡結果。
- 關鍵字
-
這些是特定的字元序列,必須鄰近符合規則運算式模式的文字。鄰近需求會根據 S3 物件的儲存格式或檔案類型而有所不同:
-
結構化單欄式資料 – 如果文字符合規則運算式模式,且關鍵字位於存放文字的欄位或資料欄名稱中,或文字在相同欄位或儲存格值中關鍵字的相符距離上限之前和之內,則 Macie 會包含結果。這種情況適用於 Microsoft Excel 工作手冊、CSV 檔案和 TSV 檔案。
-
結構化記錄型資料 – 如果文字符合規則運算式模式,且文字位於關鍵字的最大相符距離內,則 Macie 會包含結果。關鍵字可以位於儲存文字之欄位或陣列路徑中的 元素名稱,也可以在儲存文字之欄位或陣列中的前面,並且是相同值的一部分。這種情況適用於 Apache Avro 物件容器、Apache Parquet 檔案、JSON 檔案和 JSON Lines 檔案。
-
非結構化資料 – 如果文字符合 regex 模式,且文字前面為關鍵字的最大相符距離,則 Macie 會包含結果。這是 CSV、JSON、JSON Lines 和 TSV 檔案以外的 Adobe 可攜式文件格式檔案、Microsoft Word 文件、電子郵件訊息和非二進位文字檔案的情況。這包括這些檔案類型中的任何結構化資料,例如資料表。
您可以指定最多 50 個關鍵字。每個關鍵字可以包含 3–90 個 UTF-8 字元。關鍵字不區分大小寫。
-
- 最大配對距離
-
這是關鍵字的字元型鄰近規則。Macie 使用此設定來判斷關鍵字是否在符合 regex 模式的文字前。此設定定義了完整關鍵字結尾與符合 regex 模式的文字結尾之間可存在的字元數上限。Macie 包含以下條件的結果:
-
符合 regex 模式、
-
在至少一個完整關鍵字後發生,且
-
在關鍵字的指定距離內發生。
否則,Macie 會從結果中排除文字。
您可以指定 1–300 個字元的距離。預設距離為 50 個字元。為了獲得最佳結果,此距離應大於 regex 設計用來偵測的最小文字字元數。如果只有部分文字在關鍵字的最大相符距離內,Macie 不會將其包含在結果中。
-
- 忽略單字
-
這些是從結果中排除的特定字元序列。如果文字符合 regex 模式,但包含忽略單字,則 Macie 不會將其包含在結果中。
您可以指定最多 10 個忽略單字。每個忽略單字可以包含 4–90 個 UTF-8 字元。忽略單詞需區分大小寫。
注意
在您建立自訂資料識別符之前,強烈建議您使用範例資料來測試和精簡其偵測條件。由於自訂資料識別符是敏感資料探索任務所使用的,因此您無法在建立自訂資料識別符之後變更它。這有助於確保您擁有不可變的敏感資料調查結果和探索結果歷史記錄,以便進行資料隱私權和保護稽核或調查。
您可以使用 Amazon Macie 主控台或 Amazon Macie API 來測試偵測條件。若要使用主控台測試條件,請在建立自訂資料識別符時,使用評估區段中的選項。若要以程式設計方式測試條件,請使用 Amazon Macie API 的 TestCustomDataIdentifier 操作。如果您使用的是 AWS Command Line Interface,請執行 test-custom-data-identifier 命令來測試條件。
如需關鍵字如何協助您尋找敏感資料並避免誤報的示範,請觀看下列影片:
問題清單的嚴重性設定
當您建立自訂資料識別符時,您也可以為識別符產生的敏感資料調查結果指定自訂嚴重性設定。根據預設,Amazon Macie 會將中等嚴重性指派給自訂資料識別符所產生的所有調查結果。如果 S3 物件包含至少一個符合偵測條件的文字,Macie 會自動將中嚴重性指派給產生的調查結果。
透過自訂嚴重性設定,您可以根據符合偵測條件的文字出現次數指定要指派的嚴重性。您可以定義最多三個嚴重性層級的出現閾值:低 (最不嚴重)、中和高 (最嚴重)。出現閾值是 S3 物件中必須存在的符合項目數量下限,以產生具有指定嚴重性的調查結果。如果您指定多個閾值,則閾值必須依嚴重性遞增,從低到高。
例如,下圖顯示指定三個出現閾值的嚴重性設定,每個 Macie 支援的嚴重性層級各一個。

下表指出自訂資料識別符產生的調查結果嚴重性。
發生閾值 | 嚴重性等級 | 結果 |
---|---|---|
1 | 低 | 如果 S3 物件包含 1–49 個符合偵測條件的文字,則結果調查結果的嚴重性為低。 |
50 | 中 | 如果 S3 物件包含 50–99 個符合偵測條件的文字,則結果調查結果的嚴重性為中。 |
100 | 高 | 如果 S3 物件包含 100 個或更多符合偵測條件的文字,則結果調查結果的嚴重性為高。 |
您也可以使用嚴重性設定來指定是否完全建立問題清單。如果 S3 物件的出現次數少於最低出現次數閾值,Macie 不會建立問題清單。