文件系统挂载问题排查 - FSx为了光泽

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文件系统挂载问题排查

文件系统挂载命令失败的原因有很多,如以下主题所述。

文件系统挂载立即失败

文件系统挂载命令立即失败。下面的代码显示了一个示例。

mount.lustre: mount fs-0123456789abcdef0.fsx.us-east-1.aws@tcp:/fsx at /lustre failed: No such file or directory Is the MGS specification correct? Is the filesystem name correct?

如果您在使用 mount 命令挂载持久性或 scratch 2 文件系统时未使用正确的 mountname 值,则可能会出现此错误。您可以从describe-file-systems AWS CLI 命令或DescribeFileSystemsAPI操作的响应中获取mountname值。

文件系统挂载挂起,然后失败,并显示超时错误

文件系统挂载命令挂起一两分钟,然后失败,并显示超时错误。

下面的代码显示了一个示例。

sudo mount -t lustre file_system_dns_name@tcp:/mountname /mnt/fsx [2+ minute wait here] Connection timed out

之所以发生此错误,可能是因为 Amazon EC2 实例或文件系统的安全组配置不正确。

要采取的操作

确保文件系统的安全组具有 Amazon VPC 安全组 中指定的入站规则。

自动挂载失败,并且实例没有响应

在某些情况下,文件系统的自动装载可能会失败,并且您的 Amazon EC2 实例可能会停止响应。

如果未声明该 _netdev 选项,则可能会出现此问题。如果缺_netdev失,您的 Amazon EC2 实例可能会停止响应。出现该结果是因为,需要在计算实例启动其网络后初始化网络文件系统。

要采取的操作

如果出现此问题,请联系 AWS Support。

系统启动期间文件系统挂载失败

系统启动期间文件系统挂载失败。使用 /etc/fstab 自动挂载。如果未挂载文件系统,则在实例启动时间范围内的系统日志中会出现以下错误。

LNetError: 3135:0:(lib-socket.c:583:lnet_sock_listen()) Can't create socket: port 988 already in use LNetError: 122-1: Can't start acceptor on port 988: port already in use

当端口 988 不可用时,可能会发生此错误。将实例配置为挂载NFS文件系统时,NFS挂载可能会将其客户端端口绑定到端口 988

要采取的操作

如果可能,您可以通过调整NFS客户端noresvport和装noauto载选项来解决此问题。

使用DNS名称装载文件系统失败

错误配置的域名服务 (DNS) 名称可能会导致文件系统装载失败,如以下情况所示。

场景 1:使用域名服务 (DNS) 名称的文件系统装载失败。下面的代码显示了一个示例。

sudo mount -t lustre file_system_dns_name@tcp:/mountname /mnt/fsx mount.lustre: Can't parse NID 'file_system_dns_name@tcp:/mountname'

要采取的操作

检查您的虚拟私有云 (VPC) 配置。如果您使用的是自定义VPC,请确保DNS设置已启用。有关更多信息,请参阅《Amazon VPC 用户指南》VPC中的 “DNS与您一起使用”。

要在mount命令中指定DNS名称,请执行以下操作:

  • 确保亚马逊EC2实例与您的 Ama FSx zon for Lustre 文件系统VPC相同。

  • 将您的 Amazon EC2 实例连接到VPC配置为使用亚马逊提供的DNS服务器的内部。有关更多信息,请参阅 Amazon VPC 用户指南中的DHCP选项集

  • 确保连接的 Amazon VPC EC2 实例的 Amazon 已启用DNS主机名。有关更多信息,请参阅《亚马逊VPC用户指南》VPC中的 “更新对您的DNS支持”。

场景 2:使用域名服务 (DNS) 名称的文件系统装载失败。下面的代码显示了一个示例。

mount -t lustre file_system_dns_name@tcp:/mountname /mnt/fsx mount.lustre: mount file_system_dns_name@tcp:/mountname at /mnt/fsx failed: Input/output error Is the MGS running?

要采取的操作

确保客户端VPC的安全组应用了正确的出站流量规则。尤其是在您未使用默认安全组或修改了默认安全组的情况下,此建议仍然适用。有关更多信息,请参阅 Amazon VPC 安全组