文件系统性能问题排查
FSx for Windows File Server 文件系统的性能取决于多个因素,包括推送到文件系统的流量、文件系统的配置方式以及由启用的功能消耗的资源,例如重复数据删除或影子副本。有关了解文件系统性能的更多信息,请参阅FSx for Windows File Server 性能。
主题
如何确定我的文件系统的吞吐量和 IOPS 限制?
要查看文件系统的吞吐量和 IOPS 限制,请根据预置吞吐能力参阅性能水平表。
网络 I/O 和磁盘 I/O 有什么区别? 为什么我的网络 I/O 与磁盘 I/O 不同?
Amazon FSx 文件系统包括一个或多个文件服务器,这些服务器通过网络向访问文件系统的客户端提供数据。这是网络 I/O。文件服务器使用快速内存缓存来增强最常访问数据的性能。文件服务器还会将流量推送到托管文件系统数据的存储卷。这是磁盘 I/O。下图阐明了 Amazon FSx 文件系统的网络和磁盘 I/O。
有关更多信息,请参阅 使用 Amazon CloudWatch 监控。
为什么即使我的网络 I/O 很低,CPU 或内存利用率仍然很高?
文件服务器 CPU 和内存利用率不仅取决于您推送的网络流量,还取决于您在文件系统上启用的功能。如何配置和计划这些功能可能会影响 CPU 和内存利用率。
正在进行的重复数据删除作业可能会消耗内存。您可以修改重复数据删除作业的配置,以降低内存需求。例如,您可以将优化限制为针对特定文件类型或文件夹运行,或者设置优化的最小文件大小和期限。我们还建议将重复数据删除作业配置为在文件系统负载最小的空闲期间运行。有关更多信息,请参阅 通过重复数据删除来降低存储成本。
如果您启用了基于访问权限的枚举,则可能会在最终用户查看或列出文件共享时,或者在存储扩展作业的优化阶段,看到 CPU 利用率很高。有关更多信息,请参阅《Microsoft 存储文档》中的对命名空间启用基于访问的枚举
什么是突增? 我的文件系统使用了多少突增? 突增点数用完时会发生什么?
基于文件的工作负载通常处于尖峰状态,其特点是短暂而密集的高 I/O 周期,且两次突增之间有空闲时间。为了支持这些工作负载类型,除了文件系统可以维持的基准速度外,Amazon FSx 还提供在一段时间内突增至更高速度的功能,用于网络 I/O 和磁盘 I/O 操作。
Amazon FSx 会使用 I/O 点数机制,根据平均利用率分配吞吐量和 IOPS,即当文件系统的吞吐量和 IOPS 用量低于其基准限制时,文件系统会累积点数,然后可以在必要时对超过基准限制的突增(最高至突增限制)时使用这些点数。有关文件系统的突增限制和持续时间的更多信息,请参阅 FSx for Windows File Server 性能。
我在监控和性能页面上看到一条警告,我需要更改文件系统的配置吗?
监控和性能页面出现警告,指明最近的工作负载需求何时接近或超过资源限制,具体取决于您的文件系统配置方式。这并不一定意味着您需要更改配置,但如果不采取建议的措施,您的文件系统可能无法满足您的工作负载需求。
如果导致警告的工作负载并不典型,并且您预计它不会持续,那么不采取任何措施但同时密切监控未来的利用率可能是安全的。但是,如果导致警告的工作负载是典型工作负载,并且您预计它会持续甚至加剧,我们建议您按照建议的操作来提高文件服务器性能(通过增加吞吐能力)或提高存储卷性能(通过增加存储容量或从 HDD 切换到 SSD 存储)。
注意
某些文件系统事件可能会消耗磁盘 I/O 性能资源,并可能触发性能警告。例如:
存储容量扩展的优化阶段会增加磁盘吞吐量,如 增加存储容量并提升文件系统性能 中所述
对于多可用区文件系统,吞吐能力扩展、硬件更换或可用区中断等事件会导致自动失效转移和失效自动恢复事件。在此期间发生的任何数据更改都需要在主文件服务器和辅助文件服务器之间进行同步,Windows Server 运行的数据同步作业可能会消耗磁盘 I/O 资源。有关更多信息,请参阅 在 FSx for Windows File Server 文件系统上管理吞吐能力。
我的指标暂时丢失,我应该担心吗?
在文件系统维护、基础设施组件更换以及可用区不可用时,单可用区文件系统会出现不可用情况。在这段时间内,指标将不可用。
在多可用区部署中,Amazon FSx 会自动在不同可用区中配置和维护一个备用文件服务器。如果文件系统维护或计划外服务中断,Amazon FSx 通常会自动失效转移到备用文件服务器,让您无需人工干预即可继续访问数据。在您的文件系统进行失效转移和失效自动恢复的短时间内,指标可能暂时不可用。