文件系统挂载问题排查
文件系统挂载命令失败的原因有很多,如以下主题所述。
文件系统挂载立即失败
文件系统挂载命令立即失败。下面的代码显示了一个示例。
mount.lustre: mount fs-0123456789abcdef0.fsx.us-east-1.aws@tcp:/fsx at /lustre
failed: No such file or directory Is the MGS specification correct? Is the filesystem name correct?
如果您在使用 mount 命令挂载持久性或 scratch 2 文件系统时未使用正确的 mountname
值,则可能会出现此错误。您可以从 describe-file-systemsAWS CLI 命令或 DescribeFileSystems API 操作的响应中获取 mountname
值。
文件系统挂载挂起,然后失败,并显示超时错误
文件系统挂载命令挂起一两分钟,然后失败,并显示超时错误。
下面的代码显示了一个示例。
sudo mount -t lustre
file_system_dns_name
@tcp:/mountname
/mnt/fsx
[2+ minute wait here] Connection timed out
出现该错误的原因可能是 Amazon EC2 实例或文件系统的安全组配置不正确。
要采取的操作
确保文件系统的安全组具有 Amazon VPC 安全组 中指定的入站规则。
自动挂载失败,并且实例没有响应
在某些情况下,文件系统的自动挂载可能会失败,并且您的 Amazon EC2 实例可能会停止响应。
如果未声明该 _netdev
选项,则可能会出现此问题。如果缺少 _netdev
,您的 Amazon EC2 实例可能会停止响应。出现该结果是因为,需要在计算实例启动其网络后初始化网络文件系统。
要采取的操作
如果出现此问题,请联系 AWS Support。
系统启动期间文件系统挂载失败
系统启动期间文件系统挂载失败。使用 /etc/fstab
自动挂载。如果未挂载文件系统,则在实例启动时间范围内的系统日志中会出现以下错误。
LNetError: 3135:0:(lib-socket.c:583:lnet_sock_listen()) Can't create socket: port 988 already in use LNetError: 122-1: Can't start acceptor on port 988: port already in use
当端口 988 不可用时,可能会发生此错误。将实例配置为挂载 NFS 文件系统时,NFS 挂载可能会将其客户端端口绑定到端口 988
要采取的操作
在可能的情况下,您可以通过调整 NFS 客户端的 noresvport
和 noauto
挂载选项来解决此问题。
使用 DNS 名称的文件系统挂载失败
错误配置的域名服务(DNS)名称可能会导致文件系统挂载失败,如以下场景所示。
场景 1:使用域名服务(DNS)名称的文件系统挂载失败。下面的代码显示了一个示例。
sudo mount -t lustre
file_system_dns_name
@tcp:/mountname
/mnt/fsx
mount.lustre: Can't parse NID 'file_system_dns_name
@tcp:/mountname
'
要采取的操作
检查您的虚拟私有云(VPC)配置。如果使用自定义 VPC,请确保已启用 DNS 设置。有关更多信息,请参阅《Amazon VPC 用户指南》中的结合使用 DNS 和 VPC。
要在 mount
命令中指定一个 DNS 名称,请执行以下操作:
-
确保 Amazon EC2 实例与您的 Amazon FSx for Lustre 文件系统位于同一 VPC 中。
-
在配置为使用由 Amazon 提供的 DNS 服务器的 VPC 内连接您的 Amazon EC2 实例。有关更多信息,请参阅《Amazon VPC 用户指南》中的 DHCP 选项集。
-
确保连接 Amazon EC2 实例的 Amazon VPC 已启用 DNS 主机名。有关更多信息,请参阅《Amazon VPC 用户指南》中的更新 VPC 的 DNS 支持。
场景 2:使用域名服务(DNS)名称的文件系统挂载失败。下面的代码显示了一个示例。
mount -t lustre
file_system_dns_name
@tcp:/mountname
/mnt/fsx
mount.lustre: mountfile_system_dns_name
@tcp:/mountname
at /mnt/fsx failed: Input/output error Is the MGS running?
要采取的操作
确保客户端的 VPC 安全组应用了正确的出站流量规则。尤其是在您未使用默认安全组或修改了默认安全组的情况下,此建议仍然适用。有关更多信息,请参阅 Amazon VPC 安全组。