自訂資料識別碼的組態選項 - Amazon Macie

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂資料識別碼的組態選項

透過使用自訂資料識別碼,您可以定義自訂條件,以偵測 Amazon Simple Storage Service (Amazon S3) 物件中的敏感資料。您可以補充 Amazon Macie 提供的受管資料識別碼,並偵測反映組織特定案例、智慧財產權或專屬資料的敏感資料。

每個自訂資料識別符都會指定偵測條件,並選擇性地指定識別符所產生之調查結果的嚴重性設定。偵測條件會指定規則運算式,定義要在 S3 物件中比對的文字模式。條件也可以指定字元序列和精簡結果的鄰近規則。嚴重性設定會指定要指派給調查結果的嚴重性。嚴重性可以根據符合識別符偵測條件的文字發生次數。

偵測條件

建立自訂資料識別符時,您可以指定規則運算式 (regex ),以定義要比對的文字模式。您也可以指定字元序列,例如單字和片語,以及精簡結果的鄰近規則。字元序列可以是:關鍵字 ,這些關鍵字或片語必須接近符合 regex 的文字,或忽略字詞 ,這些字詞或片語要從結果中排除。

對於 regex,Amazon Macie 支援 Perl 相容規則運算式 (PCRE) 程式庫 提供的模式語法子集。在PCRE程式庫提供的建構中,Macie 不支援下列模式元素:

  • 反向參考

  • 擷取群組

  • 條件式模式

  • 內嵌程式碼

  • 全域模式旗標,例如 /i/m/x

  • 遞迴模式

  • 正面和負面展望和展望零寬度聲明,例如 ?=?!?<=?<!

regex 最多可包含 512 個字元。

若要為自訂資料識別符建立有效的 regex 模式,請注意下列秘訣和建議:

  • 只有在您預期模式出現在檔案的開頭或結尾,而不是行的開頭或結尾時,才能使用錨點 (^$)。

  • 基於效能原因,Macie 會限制繫結重複群組的大小。例如, \d{100,1000} 不會在 Macie 中編譯 。若要近似此功能,您可以使用開放式重複項目,例如 \d{100,}

  • 若要使模式大小寫的部分不區分,您可以使用 (?i) 建構而非 /i旗標。

  • 不需要手動最佳化字首或輪換。例如,/hello|hi|hey/將 變更為 /h(?:ello|i|ey)/不會改善效能。

  • 基於效能原因,Macie 會限制重複的萬用字元數量。例如, a*b*a* 不會在 Macie 中編譯 。

為了防止格式不正確或長時間執行的表達式,Macie 會在您建立自訂資料識別符時,針對範例文字的集合自動測試 regex 模式。如果 regex 發生問題,Macie 會傳回描述問題的錯誤。

除了 regex 之外,您還可以選擇性地指定字元序列和鄰近規則,以精簡結果。

關鍵字

這些是特定的字元序列,必須鄰近符合 regex 模式的文字。鄰近需求會根據 S3 物件的儲存格式或檔案類型而有所不同:

  • 結構化資料欄資料 – 如果文字符合 regex 模式,且關鍵字位於存放文字的欄位或資料欄名稱中,或文字在相同欄位或儲存格值中關鍵字的相符距離上限之前和之內,則 Macie 會包含結果。這是 Microsoft Excel 活頁簿、CSV檔案和TSV檔案的情況。

  • 結構化、以記錄為基礎的資料 – 如果文字符合 regex 模式,且文字位於關鍵字的最大相符距離內,Macie 就會包含結果。關鍵字可以在儲存文字之欄位或陣列的路徑中,以元素的名稱顯示,也可以在儲存文字之欄位或陣列中,在前面是相同值的一部分。這種情況適用於 Apache Avro 物件容器、Apache Parquet 檔案、JSON檔案和JSON行檔案。

  • 非結構化資料 – 如果文字與 regex 模式相符,且文字在關鍵字的相符距離上限之前和之內,則 Macie 會包含結果。這種情況適用於 Adobe Portable Document Format 檔案、Microsoft Word 文件、電子郵件訊息,以及 CSV、、 JSON JSON Lines 和 檔案以外的非二進位文字TSV檔案。這包括這些檔案類型中的任何結構化資料,例如資料表。

您可以指定最多 50 個關鍵字。每個關鍵字可以包含 3–90 UTF-8 個字元。關鍵字不區分大小寫。

最大比對距離

這是關鍵字的字元型接近規則。Macie 使用此設定來判斷關鍵字是否在符合 regex 模式的文字之前。此設定定義了完整關鍵字結尾與符合 regex 模式的文字結尾之間可存在的最大字元數。如果文字符合下列條件,Macie 會包含結果:

  • 符合 regex 模式、

  • 在至少一個完整關鍵字後發生,且

  • 在關鍵字的指定距離內發生。

否則,Macie 會從結果中排除文字。

您可以指定 1–300 個字元的距離。預設距離為 50 個字元。為了獲得最佳結果,此距離應大於 regex 設計用來偵測的最小文字字元數。如果只有部分文字位於關鍵字的相符距離上限內,Macie 不會將其包含在結果中。

忽略單字

這些是從結果中排除的特定字元序列。如果文字符合 regex 模式,但包含忽略單字,則 Macie 不會將其包含在結果中。

您可以指定最多 10 個忽略單字。每個忽略單字可以包含 4–90 UTF-8 個字元。忽略單詞需區分大小寫。

注意

我們強烈建議您在儲存自訂資料識別碼之前,先測試和完善您的偵測條件。由於自訂資料識別符用於敏感資料探索任務,因此您無法在儲存自訂資料識別符後對其進行編輯。這有助於確保您擁有敏感資料調查結果和探索結果的不可變歷史記錄,以便進行資料隱私權和保護稽核或調查。

您可以使用 Amazon Macie 主控台或 Amazon Macie 來測試偵測條件API。若要使用主控台測試條件,請在建立自訂資料識別碼時,使用評估區段中的選項。若要以程式設計方式測試條件,請使用 Amazon Macie TestCustomDataIdentifier的操作API。

如需關鍵字如何協助您尋找敏感資料並避免誤報的示範,請觀看下列影片:

調查結果的嚴重性設定

建立自訂資料識別碼時,您也可以為識別碼產生的敏感資料調查結果指定自訂嚴重性設定。根據預設,Amazon Macie 會將嚴重性指派給自訂資料識別碼產生的所有調查結果。如果 S3 物件包含至少一次符合偵測條件的文字,Macie 會自動將嚴重性指派給產生的調查結果。

透過自訂嚴重性設定,您可以根據符合偵測條件的文字發生次數指定要指派的嚴重性。您可以定義最多三個嚴重性層級的出現閾值 (最不嚴重)、 (最嚴重)。發生次數閾值是 S3 物件中必須存在的最小相符項數量,以產生具有指定嚴重性的調查結果。如果您指定多個閾值,則閾值必須依嚴重性遞增,從高。

例如,下圖顯示指定三個出現閾值的嚴重性設定,一個是 Macie 支援的每個嚴重性層級。

指定低、中和高嚴重性層級出現閾值的嚴重性設定。

下表指出自訂資料識別碼產生的調查結果嚴重性。

發生閾值 嚴重性等級 結果
1 如果 S3 物件包含 1–49 個符合偵測條件的文字,則結果調查結果的嚴重性為
50 如果 S3 物件包含 50–99 個符合偵測條件的文字,則結果調查結果的嚴重性為
100 如果 S3 物件包含 100 個或更多符合偵測條件的文字,則結果調查結果的嚴重性為

您也可以使用嚴重性設定來指定是否完全建立調查結果。如果 S3 物件的發生次數少於最低發生次數閾值,Macie 不會建立調查結果。