本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
支持的存储类别和格式
为了帮助您发现 Amazon Simple Storage Service (Amazon S3) 数据资产中的敏感数据,Amazon Macie 支持大多数 Amazon S3 存储类以及各种文件和存储格式。此支持适用于使用 托管数据标识符 和 自定义数据标识符 来分析 S3 对象的场景。
要使 Macie 分析 S3 对象,必须使用支持的存储类将对象存储在 Amazon S3 通用型存储桶中。该对象还必须使用受支持的文件或存储格式。本节中的主题列出了 Macie 当前支持的存储类别以及文件和存储格式。
提示
尽管 Macie 针对 Amazon S3 进行了优化,但您可以使用它来发现当前存储在其他位置的资源中的敏感数据。为此,您可以暂时或永久地将数据移动到 Amazon S3。例如,将 Amazon Relational Database Service 或 Amazon Aurora 快照以 Apache Parquet 格式导出到 Amazon S3。或者将 Amazon DynamoDB 表导出到 Amazon S3。然后,您可以创建敏感数据发现任务来分析 Amazon S3 中的数据。
支持的 Amazon S3 存储类别
对于敏感数据发现,Amazon Macie 支持以下 Amazon S3 存储类别:
-
减少冗余 (RRS)
-
S3 Glacier Instant Retrieval
-
S3 Intelligent-Tiering
-
S3 单区 – 不频繁访问(S3 单区 – IA)
-
S3 标准
-
S3 标准 - 不频繁访问(S3 标准 - IA)
Macie 不会分析使用其他 Amazon S3 存储类别(如 S3 Glacier Deep Archive 或 S3 Express One Zone)的 S3 对象。此外,Macie 不会分析存储在 S3 目录存储桶中的对象。
如果您将敏感数据发现任务配置为分析不使用受支持的 Amazon S3 存储类的 S3 对象,则 Macie 会在任务运行时跳过这些对象。Macie 不会尝试检索或分析对象中的数据,这些对象被视为不可分类的对象。不可分类的对象是指不使用受支持的存储类或受支持的文件或存储格式的对象。Macie 仅分析那些使用受支持的存储类和支持的文件或存储格式的对象。
同样,如果将 Macie 配置为执行自动敏感数据发现,则不可分类的对象不符合选择和分析条件。Macie 仅选择使用受支持的 Amazon S3 存储类别以及受支持的文件或存储格式的对象。
要识别存储不可分类对象的 S3 存储桶,您可以筛选 S3 存储桶清单。对于清单中的每个存储桶,都有字段报告存储桶中不可分类的对象的数量和总存储大小。
有关 Amazon S3 提供的存储类的详细信息,请参阅 Amazon Simple Storage Service 用户指南中的使用 Amazon S3 存储类别。
支持的文件和存储格式
当 Amazon Macie 分析 S3 对象时,Macie 会从 Amazon S3 中检索该对象的最新版本,然后对对象的内容执行深入检查。此检查会考虑数据的文件或存储格式。Macie 可以分析许多不同格式的数据,包括常用的压缩和存档格式。
当 Macie 分析压缩文件或存档文件中的数据时,Macie 会检查完整文件和文件内容。为了检查文件的内容,Macie 会解压缩该文件,然后检查使用受支持格式的每个提取文件。Macie 可以对多达 1,000,000 个文件和高达 10 个级别的嵌套深度执行此操作。有关适用于敏感数据发现的其他配额的信息,请参阅 Macie 的配额。
下表列出并描述了 Macie 可以分析以检测敏感数据的文件类型和存储格式。对于每种受支持的类型,该表还列出了适用的文件扩展名。
文件或存储类型 | 描述 | 文件扩展名 |
---|---|---|
大数据 |
Apache Avro 对象容器和 Apache Parquet 文件 |
.avro、.parquet |
压缩或存档 |
GNUZip 压缩档TAR案、档案和ZIP压缩档案 |
.GZ, .gzip, .tar, .zip |
文档 |
Adobe 可移植文档格式文件、Microsoft Excel 工作簿和 Microsoft Word 文档 |
.doc、.docx、.pdf、.xls、.xlsx |
电子邮件消息 |
内容符合电子邮件规定的要求的电子邮件文件,例如 RFC2822 IETF RFC |
.eml |
文本 |
非二进制文本文件。例如:逗号分隔值 (CSV) 文件、可扩展标记语言 (XML) 文件、超文本标记语言 () 文件、 JavaScript 对象表示法 (HTMLJSON) 文件、JSON行文件、纯文本文档、制表符分隔值 () 文件和文件 TSV YAML |
取决于非二进制文本文件的类型:.csv、.html、.html、.json、.jsonl、.tsv、.txt、.xml、.yaml、.yaml、.yml 等 |
Macie 不会分析图像、音频、视频和其他类型的多媒体内容中的数据。
如果您将敏感数据发现作业配置为分析不使用受支持的文件或存储格式的 S3 对象,则 Macie 会在作业运行时跳过这些对象。Macie 不会尝试检索或分析对象中的数据,这些对象被视为不可分类的对象。不可分类的对象是指不使用受支持的 Amazon S3 存储类或受支持的文件或存储格式的对象。Macie 仅分析那些使用受支持的存储类和支持的文件或存储格式的对象。
同样,如果将 Macie 配置为执行自动敏感数据发现,则不可分类的对象不符合选择和分析条件。Macie 仅选择使用受支持的 Amazon S3 存储类别以及受支持的文件或存储格式的对象。
要识别存储不可分类对象的 S3 存储桶,您可以筛选 S3 存储桶清单。对于清单中的每个存储桶,都有字段报告存储桶中不可分类的对象的数量和总存储大小。