Amazon FSx for Lustre 指标和维度 - FSx for Lustre

Amazon FSx for Lustre 指标和维度

Amazon FSx for Lustre 在 Amazon CloudWatch 的 AWS/FSx 命名空间中发布了适用于所有 FSx for Lustre 文件系统的指标,如下表中描述。

FSx for Lustre 网络 I/O 指标

AWS/FSx 命名空间包括以下 网络 I/O 指标。以上所有指标均采用同一维度,即 FileSystemId

指标 描述
DataReadBytes

由客户端读取到文件系统的字节数。

Sum 统计数据是指定时间段内与读取操作相关的总字节数。Minimum 统计数据是与单个 OST 上的读取操作相关的最小字节数。Maximum 统计数据是与 OST 上的读取操作相关的最大字节数。Average 统计数据是与每个 OST 的读取操作相关的平均字节数。SampleCount 统计数据是 OST 数。

要计算某个时段内的平均吞吐量(每秒字节数),请将 Sum 统计数据除以该时段的秒数。

单位:

  • 对于 SumMinimumMaximumAverage,单位为字节。

  • SampleCount 的数量。

有效统计数据:SumMinimumMaximumAverageSampleCount

DataWriteBytes

由客户端写入文件系统的字节数。

Sum 统计数据是与写入操作关联的总字节数。Minimum 统计数据是与单个 OST 上的写入操作相关的最小字节数。Maximum 统计数据是与 OST 上的写入操作相关的最大字节数。Average 统计数据是与每个 OST 的写入操作相关的平均字节数。SampleCount 统计数据是 OST 数。

要计算某个时段内的平均吞吐量(每秒字节数),请将 Sum 统计数据除以该时段的秒数。

单位:

  • 对于 SumMinimumMaximumAverage,单位为字节。

  • SampleCount 的数量。

有效统计数据:SumMinimumMaximumAverageSampleCount

DataReadOperations

读取操作数。

Sum 统计数据是读取操作总数。Minimum 统计数据是单个 OST 上的最小读取操作数。Maximum 统计数据是 OST 上的最大读取操作数。Average 统计数据是每个 OST 的平均读取操作数。SampleCount 统计数据是 OST 数。

要计算某个时段内的平均读取操作数(每秒操作数),请将 Sum 统计数据除以该时段的秒数。

单位:

  • 对于 SumMinimumMaximumAverage,单位为字节。

  • SampleCount 的数量。

有效统计数据:SumMinimumMaximumAverageSampleCount

DataWriteOperations

写入操作数。

Sum 统计数据是写入操作总数。Minimum 统计数据是单个 OST 上的最小写入操作数。Maximum 统计数据是 OST 上的最大写入操作数。Average 统计数据是每个 OST 的平均写入操作数。SampleCount 统计数据是 OST 数。

要计算某个时段内的平均写入操作数(每秒操作数),请将 Sum 统计数据除以该时段的秒数。

单位:

  • 对于 SumMinimumMaximumAverage,单位为字节。

  • SampleCount 的数量。

有效统计数据:SumMinimumMaximumAverageSampleCount

MetadataOperations

元数据操作数。

Sum 统计数据是元数据操作数。Minimum 统计数据是每个 MDT 的最小元数据操作数。Maximum 统计数据是每个 MDT 的最大元数据操作数。Average 统计数据是每个 MDT 的平均元数据操作数。SampleCount 统计数据是 MDT 数。

要计算某个时段内的平均元数据操作数(每秒操作数),请将 Sum 统计数据除以该时段的秒数。

单位:

  • SumMinimumMaximumAverageSampleCount 的数量。

有效统计数据:SumMinimumMaximumAverageSampleCount

ClientConnections

客户端与文件系统之间的活动连接数。

单位:计数

FSx for Lustre 对象存储服务器指标

AWS/FSx 命名空间包括以下对象存储服务器 (OSS) 指标。以上所有指标均使用 FileSystemIdFileServer 两个维度。

  • FileSystemId - 文件系统的 AWS 资源 ID。

  • FileServer - Lustre 文件系统中对象存储服务器 (OSS) 的名称。每个 OSS 都预置了一个或多个对象存储目标 (OST)。OSS 使用 OSS 命名约定 <HostIndex>,其中 HostIndex 表示一个 4 位的十六进制值(例如 OSS0001)。OSS 的 ID 是附加到 OSS 的第一个 OST 的 ID。例如,第一个附加到 OST0000OST0001 的 OSS 将使用 OSS0000,第二个附加到 OST0002 的 OSS OST0003 将使用 OSS0002

指标 描述
NetworkThroughputUtilization

网络吞吐量利用率,用文件系统可用网络吞吐量的百分比表示。该指标等于 NetworkSentBytesNetworkReceivedBytes 之和,表示为文件系统中一个 OSS 的网络吞吐能力的百分比。对于文件系统的每个 OSS,每分钟都会发出一个指标。

Average 统计数据是给定 OSS 在指定时间段内的平均网络吞吐量利用率。

Minimum 统计数据是给定 OSS 在指定时间段内一分钟的最低网络吞吐量利用率。

Maximum 统计数据是给定 OSS 在指定时间段内一分钟的最高网络吞吐量利用率。

单位:百分比

有效统计数据:AverageMinimumMaximum

NetworkSentBytes

文件系统发送的字节数。该指标考虑了所有流量,包括进出链接的数据存储库的数据运动。对于文件系统的每个 OSS,每分钟都会发出一个指标。

Sum 统计数据是给定 OSS 在指定时间段内通过网络发送的总字节数。

Average 统计数据是给定 OSS 在指定时间段内通过网络发送的平均字节数。

Minimum 统计数据是给定 OSS 在指定时间段内通过网络发送的最低字节数。Maximum 统计数据是给定 OSS 在指定时间段内通过网络发送的最高字节数。

Maximum 统计数据是给定 OSS 在指定时间段内通过网络发送的最高字节数。

要计算指定时段内的任意统计数据的发送吞吐量(每秒字节数),请将统计数据除以该时段的秒数。

单位:字节

有效统计数据:SumAverageMinimumMaximum

NetworkReceivedBytes

文件系统收到的字节数。该指标考虑了所有流量,包括进出链接的数据存储库的数据运动。对于文件系统的每个 OSS,每分钟都会发出一个指标。

Sum 统计数据是给定 OSS 在指定时间段内通过网络接收的总字节数。

Average 统计数据是给定 OSS 在指定时间段内通过网络接收的平均字节数。

Minimum 统计数据是给定 OSS 在指定时间段内通过网络接收的最低字节数。

Maximum 统计数据是给定 OSS 在指定时间段内通过网络接收的最高字节数。

要计算指定时段内的任意统计数据的吞吐量(每秒字节数),请将统计数据除以该时段的秒数。

单位:字节

有效统计数据:SumAverageMinimumMaximum

FileServerDiskThroughputUtilization

OSS 和相关 OST 之间的磁盘吞吐量,表示为由吞吐能力决定的预调配限制的百分比。该指标等于 DiskReadBytesDiskWriteBytes 之和,表示为文件系统的 OSS 磁盘吞吐能力的百分比。对于文件系统的每个 OSS,每分钟都会发出一个指标。

Average 统计数据是给定 OSS 在指定时间段内的平均 OSS 磁盘吞吐量利用率。

Minimum 统计数据是给定 OSS 在指定时间段内的最低 OSS 磁盘吞吐量利用率。

Maximum 统计数据是给定 OSS 在指定时间段内的最高 OSS 磁盘吞吐量利用率。

单位:百分比

有效统计数据:AverageMinimumMaximum

FSx for Lustre 对象存储目标指标

AWS/FSx 命名空间包括以下对象存储目标 (OSS) 指标。以上所有指标均使用 FileSystemIdStorageTargetId 两个维度。

注意

DiskReadOperationsDiskWriteOperations 指标在临时文件系统不可用,DiskIopsUtilization 指标在临时和永久性 HDD 文件系统上不可用。

指标 描述
DiskReadBytes

从此 OST 进行任何磁盘读取的字节数(磁盘 IO)。对于文件系统的每个 OST,每分钟都会发出一个指标。

Sum 统计数据是指定时间段内一分钟从给定 OST 读取的总字节数。

Average 统计数据是指定时间段内每分钟从给定 OST 读取的平均字节数。

Minimum 统计数据是指定时间段内每分钟从给定 OST 读取的最低字节数。

Maximum 统计数据是指定时间段内每分钟从给定 OST 读取的最高字节数。

要计算此时段内的任意统计数据的读取磁盘吞吐量(每秒字节数),请将统计数据除以该时段的秒数。

单位:字节

有效统计数据:SumAverageMinimumMaximum

DiskWriteBytes

从此 OST 进行任何磁盘写入的字节数(磁盘 IO)。对于文件系统的每个 OST,每分钟都会发出一个指标。

Sum 统计数据是指定时间段内每分钟从给定 OST 写入的总字节数。

Average 统计数据是指定时间段内每分钟从给定 OST 写入的平均字节数。

Minimum 统计数据是指定时间段内每分钟从给定 OST 写入的最低字节数。

Maximum 统计数据是指定时间段内每分钟从给定 OST 写入的最高字节数。

要计算此时段内的任意统计数据的读取磁盘吞吐量(每秒字节数),请将统计数据除以该时段的秒数。

单位:字节

有效统计数据:SumAverageMinimumMaximum

DiskReadOperations

对此 OST 执行读取操作(磁盘 IO)的次数。对于文件系统的每个 OST,每分钟都会发出一个指标。

Sum 统计数据是给定 OST 在指定时间段内执行读取操作的总次数。

Average 统计数据是指定时间段内每分钟由给定 OST 执行的平均读取操作次数。

Minimum 统计数据是指定时间段内每分钟由给定 OST 执行的最低读取操作次数。

Maximum 统计数据是指定时间段内每分钟由给定 OST 执行的最高读取操作次数。

要计算一段时间内的平均磁盘 IOPS,可使用 Average 统计数据并将结果除以 60(秒)。

单位:计数

有效统计数据:SumAverageMinimumMaximum

DiskWriteOperations

对此 OST 执行写入操作(磁盘 IO)的次数。对于文件系统的每个 OST,每分钟都会发出一个指标。

Sum 统计数据是给定 OST 在指定时间段内执行写入操作的总次数。

Average 统计数据是指定时间段内每分钟由给定 OST 执行的平均写入操作次数。

Minimum 统计数据是指定时间段内每分钟由给定 OST 执行的最低写入操作次数。

Maximum 统计数据是指定时间段内每分钟由给定 OST 执行的最高写入操作次数。

要计算一段时间内的平均磁盘 IOPS,可使用 Average 统计数据并将结果除以 60(秒)。

单位:计数

有效统计数据:SumAverageMinimumMaximum

DiskIopsUtilization

一个 OST 的磁盘 IOPS 利用率,表示为该 OST 磁盘 IOPS 限制的百分比。对于文件系统的每个 OST,每分钟都会发出一个指标。

Average 统计数据是指定时间段内给定 OST 的平均磁盘 IOPS 利用率。

Minimum 统计数据是指定时间段内给定 OST 的最低磁盘 IOPS 利用率。

Maximum 统计数据是指定时间段内给定 OST 的最高磁盘 IOPS 利用率。

单位:百分比

有效统计数据:AverageMinimumMaximum

FSx for Lustre 元数据指标

AWS/FSx 命名空间包括以下元数据指标。CPUUtilization 指标采用 FileSystemIdFileServer 维度,而其他指标采用 FileSystemIdStorageTargetId维度。

  • FileSystemId - 文件系统的 AWS 资源 ID。

  • StorageTargetId - 元数据目标 (MDT) 的名称。MDT 使用 MDT 命名约定 <MDTIndex>(例如,MDT0001)。

  • FileServer - Lustre 文件系统中元数据服务器 (MDS) 的名称。每个 MDS 都预置了一个元数据目标 (MDT)。MDS 使用 MDS 命名约定 <HostIndex>,其中 HostIndex 表示使用服务器上的 MDT 索引得出的 4 位十六进制值。例如,第一个预置 MDT0000 的 MDS 将使用 MDS0000,第二个预置 MDT0001 的 MDS 将使用 MDS0001。如果文件系统指定了元数据配置,则此文件系统中包含多个元数据服务器。

指标 描述
CPUUtilization

文件系统 MDS CPU 资源的利用率百分比。对于文件系统的每个 MDS,每分钟都会发出一个指标。

Average 统计数据是指定时间段内 MDS 的平均 CPU 利用率。

Minimum 统计数据是给定 MDS 在指定时间段内的最低 CPU 利用率。

Maximum 统计数据是给定 MDS 在指定时间段内的最高 CPU 利用率。

单位:百分比

有效统计数据:AverageMinimumMaximum

FileCreateOperations

文件创建操作的总次数。

单位:计数

FileOpenOperations

文件打开操作的总次数。

单位:计数

FileDeleteOperations

文件删除操作的总次数。

单位:计数

StatOperations

统计操作的总次数。

单位:计数

RenameOperations

目录重命名的总次数,无论是就地目录重命名还是跨目录重命名。

单位:计数

FSx for Lustre 存储容量指标

AWS/FSx 命名空间包括以下存储容量指标。所有这些指标都采用 FileSystemIdStorageTargetId 这两个维度,采用 FileSystemId 维度的 LogicalDiskUsagePhysicalDiskUsage 除外。

指标 描述
FreeDataStorageCapacity

此 OST 中可用存储容量的大小。对于文件系统的每个 OST,每分钟都会发出一个指标。

Sum 统计数据是指定时间段内给定 OST 中提供的总字节数。

Average 统计数据是指定时间段内给定 OST 中提供的平均字节数。

Minimum 统计数据是指定时间段内给定 OST 中提供的最低字节数。

Maximum 统计数据是指定时间段内给定 OST 中提供的最高字节数。

单位:字节

有效统计数据:SumAverageMinimumMaximum

StorageCapacityUtilization

给定文件系统 OST 的存储容量利用率。对于文件系统的每个 OST,每分钟都会发出一个指标。

Average 统计数据是指定时间段内给定 OST 的平均存储容量利用率。

Minimum 统计数据是指定时间段内给定 OST 的最小存储容量利用率。

Maximum 统计数据是指定时间段内给定 OST 的最大存储容量利用率。

单位:百分比

有效统计数据:AverageMinimumMaximum

StorageCapacityUtilizationWithCachedWrites

给定文件系统 OST 的存储容量利用率,包括在客户端上为缓存写入保留的空间。对于文件系统的每个 OST,每分钟都会发出一个指标。

Average 统计数据是指定时间段内给定 OST 的平均存储容量利用率。

Minimum 统计数据是指定时间段内给定 OST 的最小存储容量利用率。

Maximum 统计数据是指定时间段内给定 OST 的最大存储容量利用率。

单位:百分比

有效统计数据:AverageMinimumMaximum

LogicalDiskUsage

存储的逻辑数据量(未压缩)。

Sum 统计数据是文件系统中存储的逻辑字节总数。Minimum 统计数据是文件系统的 OST 中存储的最小逻辑字节数。Maximum 统计数据是文件系统的 OST 中存储的最大逻辑字节数。Average 统计数据是每个 OST 存储的平均逻辑字节数。SampleCount 统计数据是 OST 数。

单位:

  • 对于 SumMinimumMaximum,单位为字节。

  • SampleCount 的数量。

有效统计数据:SumMinimumMaximumAverageSampleCount

PhysicalDiskUsage

文件系统数据(压缩)物理占用的存储量。

Sum 统计数据是在文件系统的 OST 中占用的总字节数。Minimum 统计数据是在最空的 OST 中占用的总字节数。Maximum 统计数据是在最满的 OST 中占用的总字节数。Average 统计数据是在每个 OST 中占用的平均字节数。SampleCount 统计数据是 OST 数。

单位:

  • 对于 SumMinimumMaximum,单位为字节。

  • SampleCount 的数量。

有效统计数据:SumMinimumMaximumAverageSampleCount

FSx for Lustre S3 存储库指标

FSx for Lustre 会将以下 AutoImport(自动导入)和 AutoExport(自动导出)指标发布到 CloudWatch 中的 FSx 命名空间。这些指标使用维度对您的数据进行更精细的度量。所有 AutoImportAutoExport 指标都有 FileSystemIdPublisher 维度。

指标 描述

AgeOfOldestQueuedMessage

维度:AutoExport

等待导出的最早消息的期限(以秒为单位)。

Average 统计数据是等待导出的最早消息的平均期限。Maximum 统计数据是消息在导出队列中停留的最大秒数。Minimum 统计数据是消息在导出队列中停留的最小秒数。值为零表示没有消息等待导出。

单位:秒

有效统计数据:AverageMinimumMaximum

RepositoryRenameOperations

维度:AutoExport

文件系统为响应较大的目录重命名而处理的重命名次数。

Sum 统计数据是目录重命名引起的重命名操作总数。Average 统计数据是文件系统的平均重命名操作次数。Maximum 统计数据是文件系统上与目录重命名相关的最大重命名操作次数。Minimum 统计数据是文件系统上与目录重命名相关的最小重命名操作次数。

单位:计数

有效统计数据:SumAverageMinimumMaximum

AgeOfOldestQueuedMessage

维度:AutoImport

等待导入的最早消息的期限(以秒为单位)。

Average 统计数据是等待导入的最早消息的平均期限。Maximum 统计数据是消息在导入队列中停留的最大秒数。Minimum 统计数据是消息在导入队列中停留的最小秒数。值为零表示没有消息等待导入。

单位:秒

有效统计数据:AverageMinimumMaximum

FSx for Lustre 维度

Amazon FSx for Lustre 指标使用 AWS/FSx 命名空间并使用以下维度。

  • FileSystemId 维度表示文件系统的 ID,可筛选您向该文件系统请求的指标。您可以在 Amazon FSx 控制台上,在文件系统详情页面的摘要面板上的文件系统 ID字段找到此 ID。文件系统 ID 采用 fs-01234567890123456 形式。您还可以在 describe-file-systems CLI 命令(等效 API 操作为 DescribeFileSystems)的响应中看到此 ID。

  • StorageTargetId 维度表示发布了元数据指标的 OST(对象存储目标)或 MDT(元数据目标)。StorageTargetId 采用 OSTxxxx(例如 OST0001)或 MDTxxxx(例如 MDT0001)形式。

  • FileServer 维度表示以下内容

    • 对于 OSS 指标:指对象存储服务器 (OSS) 的名称。OSS 使用 OSSxxxx 命名约定(例如,OSS0002)。

    • 对于 CPU 利用率指标:指元数据服务器 (MDS) 的名称。MDS 使用 MDSxxxx 命名约定(例如,MDS0002)。

  • CloudWatch 和 AWS CLI 中为 AutoImportAutoImport 指标提供了 Publisher 维度,用于表示哪个服务发布了这些指标。

有关维度的更多信息,请参阅 Amazon CloudWatch 用户指南中的维度