托管数据标识符的关键字要求 - Amazon Macie

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

托管数据标识符的关键字要求

为了使用托管数据标识号检测某些类型的敏感数据,Amazon Macie 要求关键字的位置必须靠近数据。如果特定类型的数据属于这种情况,则本节中的参考主题将指明该数据的关键字要求。

如果关键字必须靠近特定类型的数据,则该关键字通常必须在 30 个字符以内(含)数据。其他邻近要求因 Amazon Simple Storage Service (Amazon S3) 对象的文件类型或存储格式而异。

结构化柱状数据

对于列式数据,关键字必须是相同值的一部分或在存储值的列或字段的名称中。微软 Excel 工作簿、CSV文件和TSV文件就是这种情况。

例如,如果某个字段的值同时包含两个数字,SSN以及一个使用美国社会安全号码 (SSN) 语法的九位数字,则 Macie 可以在该字段SSN中检测到。同样,如果列的名称包含 SSN,Macie 可以检测该列SSN中的每个列名。Macie 将该列中的值视为与关键字SSN相近。

基于记录的结构化数据

对于基于记录的数据,关键字必须是相同值的一部分,或者是在存储值的字段或数组路径中元素的名称中。Apache Avro 对象容器、Apache Parquet 文件、文件和 JSON Lin JSON es 文件就是这种情况。

例如,如果字段的值同时包含凭据和使用语法的字符序列 AWS 私有访问密钥,Macie 可以在现场检测到密钥。同样,如果字段的路径是$.credentials.aws.key,Macie 可以检测到 AWS 字段中的秘密访问密钥。Macie 将该字段中的值视为与关键字凭证相近。

非结构化数据

除CSV了、、JSON行和文件之外,Adobe 便携式文档格式文件、Microsoft Word 文档、电子邮件和非二进制文本文件没有任何额外的邻近要求。JSON TSV关键字通常必须在数据的 30(含)个字符以内。这包括这些类型的文件中的任何结构化数据,例如表。

关键字不区分大小写。此外,如果关键字包含空格,Macie 会自动匹配不包含空格的变体,或包含下划线 (_) 或连字符 (-) 而不是空格的关键字变体。在某些情况下,Macie 还会扩展或缩写关键字以应对该关键字的常见变体。

要演示关键字如何提供上下文并帮助 Macie 检测特定类型的敏感数据,请观看以下视频: