使用 Macie 发现敏感数据
借助 Amazon Macie,您可以自动发现、记录和报告 Amazon Simple Storage Service (Amazon S3) 数据资产中的敏感数据。您可以通过两种方式执行此操作:通过配置 Macie 以执行自动敏感数据发现,以及通过创建并运行敏感数据发现作业。
- 自动敏感数据发现
-
通过自动敏感数据发现,可以广泛了解敏感数据可能存放在您的 Amazon S3 数据资产中的位置。使用此选项,Macie 可以每天评测您的 S3 存储桶清单,并使用采样技术从您的存储桶中识别和选择具有代表性的 S3 对象。然后,Macie 检索并分析所选对象,检查它们是否有敏感数据。有关更多信息,请参阅 执行自动敏感数据发现。
- 敏感数据发现作业
-
敏感数据发现作业可提供更深入、更有针对性的分析。使用此选项,您可以定义分析的广度和深度 — 您选择的特定 S3 存储桶或符合特定条件的存储桶。您还可以通过选择选项(例如源自 S3 对象属性的自定义标准)来细化分析范围。此外,您可以将作业配置为仅运行一次以进行按需分析和评测,或者定期运行以进行定期分析、评测和监控。有关更多信息,请参阅 运行敏感数据发现作业。
无论是通过自动敏感数据发现选项还是敏感数据发现作业选项,您都可以使用 Macie 提供的托管数据标识符、您定义的自定义数据标识符或两者的组合来分析 S3 对象。您也可以通过使用允许列表来微调分析。
- 托管数据标识符
-
托管数据标识符是内置标准和技术,旨在检测特定类型的敏感数据,例如信用卡号码、AWS 秘密访问密钥或特定国家或地区的护照号码。它们可以检测许多国家和地区的大量且不断增长的敏感数据类型列表,包括多种类型的凭证数据、财务信息和个人身份信息(PII)。有关更多信息,请参阅 使用托管数据标识符。
- 自定义数据标识符
-
自定义数据标识符定义检测敏感数据的自定义标准。每个自定义数据标识符指定一个正则表达式 (regex),该正则表达式定义要匹配的文本模式,以及(可选)字符序列和优化结果的邻近规则。您可以使用它们来检测反映您的特定场景、知识产权或专有数据的敏感数据,例如员工 ID、客户账户或内部数据分类。有关更多信息,请参阅 构建自定义数据标识符。
- 允许列表
-
在 Macie 中,允许列表指定在 S3 对象中要忽略的文本和文本模式,通常是特定场景或环境的敏感数据异常,例如,组织的公开名称或电话号码,或者组织用于测试的示例数据。如果 Macie 发现与允许列表中的条目或模式匹配的文本,Macie 不会报告该文本的出现,即使该文本与托管或自定义数据标识符的条件匹配。有关更多信息,请参阅 使用允许列表定义敏感数据例外。
当 Macie 分析 S3 对象时,Macie 会从 Amazon S3 中检索该对象的最新版本,然后检查该对象的内容中是否有敏感数据。如果以下条件成立,则 Macie 可以分析对象:
-
该对象使用支持的文件或存储格式,并使用支持的存储类存储在 S3 通用存储桶中。有关更多信息,请参阅 支持的存储类别和格式。
-
如果对象已加密,则会使用 Macie 可以访问并允许使用的密钥进行加密。有关更多信息,请参阅 分析加密 S3 对象。
-
如果对象存储在具有限制性存储桶策略的存储桶中,则该策略允许 Macie 访问存储桶中的对象。有关更多信息,请参阅 允许 Macie 访问 S3 存储桶和对象。
为了帮助您满足和保持对数据安全性和隐私性要求的合规性,Macie 会生成其发现的敏感数据及其所执行分析(敏感数据调查发现和敏感数据发现结果)的记录。敏感数据调查发现是 Macie 在 S3 对象中发现的敏感数据的详细报告。敏感数据发现结果是关于对象分析的详细信息的记录。每种类型的记录都遵循标准化架构,该架构可以帮助您根据需要使用其他应用程序、服务和系统来对它们进行查询、监控和处理。
提示
尽管 Macie 针对 Amazon S3 进行了优化,但您可以使用它来发现当前存储在其他位置的资源中的敏感数据。为此,您可以暂时或永久地将数据移动到 Amazon S3。例如,将 Amazon Relational Database Service 或 Amazon Aurora 快照以 Apache Parquet 格式导出到 Amazon S3。或者将 Amazon DynamoDB 表导出到 Amazon S3。然后,您可以创建作业来分析 Amazon S3 中的数据。