本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自定义数据标识符是您定义的一组标准,用于检测 Amazon Simple Storage Service (Amazon S3) 对象中的敏感数据。在创建自定义数据标识符时,指定一个正则表达式 (regex) 来定义要在 S3 对象中匹配的文本模式。您还可以指定字符序列和邻近规则,以优化结果。字符序列可以是:关键字,即必须出现在与正则表达式匹配的文本附近的单词或短语;或忽略单词,即从结果中排除的单词或短语。通过使用自定义数据标识符,您可以补充 Amazon Macie 提供的托管数据标识符,并检测反映组织的特定场景、知识产权或专有数据的敏感数据。
例如,许多公司都有针对员工的特定语法 IDs。其中一种语法可能是:一个大写字母,表示员工是全职 (F) 还是兼职 (P) 员工,后跟一个连字符 (-),然后是一个用于识别员工的八位数序列。例如:F—12345678 适用于全职员工,P—876543 21 适用于兼职员工。要检测使用 IDs 此语法的员工,您可以创建一个自定义数据标识符来指定以下正则表达式:。[A-Z]-\d{8}
为了完善分析并避免误报,您还可以配置标识符以使用关键字(employee
和 employee ID
),最大匹配距离为 20 个字符。根据这些标准,如果文本出现在关键字 employee 或 employee ID 之后,并且所有文本都出现在其中一个关键字的 20 个字符以内,则结果将包括与正则表达式匹配的文本。
要演示关键字如何帮助您查找敏感数据并避免误报,请观看以下视频:
除了检测标准外,您还可以为自定义数据标识符生成的调查发现指定自定义严重性设置。严重性可以根据符合标识符检测标准的文本的出现次数来确定。如果您不指定这些设置,Macie 会自动将标识符生成的所有调查发现指定为中等严重性。严重性不会因符合标识符检测标准的文本出现次数而变化。
有关这些设置和其他设置的详细信息,请参阅 自定义数据标识符的配置选项。
若要创建自定义数据标识符
您可以使用亚马逊 Macie 控制台或亚马逊 Macie API 创建自定义数据标识符。
按照以下步骤,通过使用 Amazon Macie 控制台创建自定义数据标识符。
若要创建自定义数据标识符
打开亚马逊 Macie 主机,网址为。https://console.aws.amazon.com/macie/
-
在导航窗格中的设置下方,选择自定义数据标识符。
-
选择创建。
-
对于名称,输入自定义数据标识符的名称。名称可以包含多达 128 个字符。
-
对于描述,可以选择输入自定义数据标识符的简要描述。描述可包含多达 512 个字符。
注意
避免在自定义数据标识符的名称或描述中包含敏感数据。您账户的其他用户可能能够访问该名称或描述,具体取决于他们在 Macie 中被允许执行的操作。
-
对于正则表达式,输入定义要匹配的文本模式的正则表达式 (regex)。正则表达式可以包含多达 512 个字符。
Macie 支持 Perl 兼容正则表达式 (PCRE)
库提供的模式语法子集。有关更多详细信息和提示,请参阅自定义数据标识符的检测标准。 -
对于关键字,可以选择输入多达 50 个字符序列(用逗号分隔)以定义特定文本,该文本必须贴近与正则表达式模式匹配的文本。
只有当文本与正则表达式模式匹配并且文本在其中一个关键字的最大匹配距离之内时,Macie 才会在结果中包含出现次数。每个关键字可以包含 3–90 个 UTF-8 字符。关键字不区分大小写。
-
对于 “忽略单词”,可以选择输入多达 10 个字符序列(用逗号分隔),用于定义要从结果中排除的特定文本。
如果文本与正则表达式模式相匹配,但它包含其中一个忽略词,则 Macie 会从结果中排除出现。每个忽略字词可以包含 4–90 个 UTF-8 字符。忽略字词区分大小写。
-
对于最大匹配距离,可以选择输入关键字结尾与匹配正则表达式的文本结尾之间的最大字符数。
只有当文本与正则表达式模式匹配并且文本与完整关键字的距离之内时,Macie 才会在结果中包含出现次数。距离可以为 1–300 个字符。默认距离为 50 个字符。
-
对于严重性,请选择如何确定自定义数据标识符生成的敏感数据调查发现的严重性:
-
要自动为所有调查发现分配中严重性,请选择为任意数量的匹配项使用“中”严重性(默认)。使用此选项,如果受影响的 S3 对象包含一次或多次符合检测标准的文本,则 Macie 会自动为调查发现分配中严重性。
-
要根据您指定的出现次数阈值来分配严重性,请选择使用自定义设置来确定严重性。然后使用出现次数阈值和严重性级别选项来指定 S3 对象中必须存在的最小匹配数,以生成具有所选严重性的调查发现。
您最多可以指定三个出现次数阈值,Macie 支持的每个严重性级别对应一个阈值:低(最不严重)、中或高(最严重)。如果指定多个阈值,则阈值必须按严重性从低到高升序排列。如果 S3 对象包含的出现次数少于最低阈值,则 Macie 不会创建查找结果。
-
-
(可选)对于标签,请选择添加标签,然后最多输入 50 个要分配给自定义数据标识符的标签。
标签是您定义并分配给某些类型的 AWS 资源的标签。每个标签都包含一个必需的标签键和一个可选的标签值。标签可以帮助您以不同的方式识别、分类和管理资源,例如,按用途、所有者、环境或其他标准。要了解更多信息,请参阅 为 Macie 资源添加标签。
-
(可选)对于评测,在样本数据框中输入最多 1000 个字符,然后选择测试以测试检测标准。Macie 评测样本数据,并报告与检测标准匹配的文本出现次数。您可根据需要多次重复此步骤,以完善和优化标准。
注意
我们强烈建议您使用样本数据测试和完善检测标准。由于敏感数据发现任务使用自定义数据标识符,因此您无法在创建自定义数据标识符后对其进行更改。这有助于确保您拥有敏感数据发现和发现结果的不可变历史记录。
-
完成后,选择 Submit(提交)。
Macie 测试设置并验证它是否可以编译正则表达式。如果设置或正则表达式有问题,Macie 会显示一个描述问题的错误。解决任何问题后,您可以保存自定义数据标识符。
创建自定义数据标识符后,您可以创建和配置敏感数据发现任务以使用它,或者将其添加到您的设置中以自动发现敏感数据。