# SEC07-BP03 自动识别和分类
<a name="sec_data_classification_auto_classification"></a>

 自动识别和分类数据可帮助您实施正确的控制措施。使用自动化技术来增强人工判断，可降低人为出错和暴露的风险。

 **期望结果：**您能够根据自己的分类和处理策略，来验证是否有适当的控制措施。自动化工具和服务有助于您识别数据的敏感性级别并加以分类。 自动化技术还有助于您持续监控环境，以便检测数据是否以未经授权的方式存储或处理，并发出警报，从而能够迅速采取纠正措施。

 **常见反模式：**
+  完全依赖人工流程进行数据识别和分类，既容易出错又耗费时间。 这可能导致数据分类效率低下且不稳定，尤其是在数据量不断增长的情况下。
+  缺乏机制，无法跟踪和管理整个组织内的数据资产。
+  忽视了数据在组织内部移动和演变时，对数据进行持续监控和分类的需求。

 **建立此最佳实践的好处：**数据识别和分类自动化可使数据保护控制措施的应用更加稳定和准确，从而降低人为出错的风险。 自动化技术还可以提供敏感数据访问和移动操作的可见性，有助于您检测到未经授权的处理并采取纠正措施。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 在工作负载的初始设计阶段，通常运用人工判断对数据进行分类，但作为一种预防性控制机制，应考虑建立若干系统，以期对测试数据进行自动识别和分类。例如，可以向开发人员提供工具或服务对代表性数据进行扫描，以便确定数据敏感性。 在 AWS 中，您可以将数据集上传至 [Amazon S3](https://aws.amazon.com/s3/)，并使用 [Amazon Macie](https://aws.amazon.com/macie/)、[Amazon Comprehend](https://aws.amazon.com/comprehend/) 或 [Amazon Comprehend Medical](https://aws.amazon.com/comprehend/medical/) 对数据进行扫描。  同样，考虑在单元测试和集成测试中纳入数据扫描，以便检测哪里的敏感数据不在预期之内。如果在这一阶段对敏感数据发出警报，就能够在部署到生产环境之前突出保护方面的漏洞。[AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/detect-PII.html)、[Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-message-data-protection-managed-data-identifiers.htm) 和 [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html) 中的敏感数据检测等其它功能也可用于检测 PII 并采取缓解措施。对于任何自动化工具或服务，都要了解其如何定义敏感数据，并根据需要使用其它人工或自动化解决方案来解决任何漏洞。

 作为一种检测性控制措施，利用对环境的持续监控来检测敏感数据是否以不合规的方式存储。 这有助于检测一些情况，例如，敏感数据是否被发送到日志文件或者复制到数据分析环境，而没有进行适当的去标识化或修订。 可使用 Amazon Macie 对存储在 Amazon S3 中的数据进行持续监控，以便发现敏感数据。  

### 实施步骤
<a name="implementation-steps"></a>

1.  查看 [SEC07-BP01](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_data_classification_identify_data.html) 中介绍的组织内数据分类方案。

   1.  通过了解贵组织的数据分类方案，您可以建立与公司策略相一致的准确的自动识别和分类流程。

1.  对环境进行初步扫描，以便自动识别和分类。

   1.  对数据初步进行全面扫描有助于全面了解敏感数据在环境中的位置。如果最初不需要进行全面扫描，或者由于成本原因无法提前完成扫描，则应评估数据采样技术是否适合实现您的结果。例如，可以对 Amazon Macie 进行配置，以便在 S3 存储桶中执行广泛的自动敏感数据发现操作。 该功能利用采样技术，对敏感数据的位置进行初步分析，成本效益高。 然后，可以使用敏感数据发现作业对 S3 存储桶进行更深入的分析。其它数据存储也可以导出到 S3，由 Macie 扫描。

   1.  为扫描中识别的数据存储资源建立在 [SEC07-BP02](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_data_classification_define_protection.html) 中定义的访问控制。

1.  配置对环境的持续扫描。

   1.  Macie 的自动敏感数据发现功能可用于对环境进行持续扫描。 可使用 Macie 中的允许列表排除已授权存储敏感数据的已知 S3 存储桶。

1.  将识别和分类纳入构建和测试流程。

   1.  确定开发人员可用于在开发工作负载时扫描数据敏感性的工具。 在集成测试过程中使用这些工具，在敏感数据意外出现时发出警报，并阻止继续部署。

1.  实施系统或运行手册，以便在未经授权的位置发现敏感数据时采取行动。

   1.  使用自动修复功能来限制对数据的访问。例如，如果您使用基于属性的访问权限控制（ABAC），则可以将此数据移到访问受限的 S3 存储桶，或者为对象添加标签。此外，可以考虑在检测到数据时对其进行屏蔽。

   1.  提醒您的数据保护和事件响应团队调查事件的根本原因。他们汲取的任何经验教训都有助于预防未来的事件。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [AWS Glue：检测和处理敏感数据](https://docs.aws.amazon.com/glue/latest/dg/detect-PII.html) 
+  [在 Amazon SNS 中使用托管数据标识符](https://docs.aws.amazon.com/sns/latest/dg/sns-message-data-protection-managed-data-identifiers.html) 
+  [Amazon CloudWatch Logs：通过屏蔽帮助保护敏感的日志数据](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html) 

 **相关示例：**
+  [Enabling data classification for Amazon RDS database with Macie](https://aws.amazon.com/blogs/security/enabling-data-classification-for-amazon-rds-database-with-amazon-macie/) 
+  [Detecting sensitive data in DynamoDB with Macie](https://aws.amazon.com/blogs/security/detecting-sensitive-data-in-dynamodb-with-macie/) 

 **相关工具：**
+  [Amazon Macie](https://aws.amazon.com/macie/) 
+  [Amazon Comprehend](https://aws.amazon.com/comprehend/) 
+  [Amazon Comprehend Medical](https://aws.amazon.com/comprehend/medical/) 
+  [AWS Glue](https://aws.amazon.com/glue/)