使用适用于 Lustre 的 FSx 存储高性能应用程序 - Amazon EKS

使用适用于 Lustre 的 FSx 存储高性能应用程序

FSx for Lustre Container Storage Interface (CSI) 驱动程序提供了一个 CSI 接口,允许 Amazon EKS 集群管理 FSx for Lustre 文件系统的生命周期。有关更多信息,请参阅《FSx for Lustre 用户指南》。

本主题介绍了如何部署 FSx for Lustre CSI 驱动程序到您的 Amazon EKS 集群,并验证它是否正常工作。建议使用最新版本的驱动程序。有关可用版本,请参阅 GitHub 上的 CSI Specification Compatibility Matrix(CSI 规范兼容性矩阵)。

注意

Fargate 不支持该驱动程序。

有关可用参数的详细说明和演示驱动程序功能的完整示例,请参阅 GitHub 上的适用于 Lustre 的 FSx 容器存储接口(CSI)驱动程序项目。

您必须:

  • 在您的设备或 AWS CloudShell 上安装和配置 AWS 命令行界面(AWS CLI)的版本 2.12.3 或更高版本,或版本 1.27.160 或更高版本。要查看当前版本,请使用 aws --version | cut -d / -f2 | cut -d ' ' -f1。软件包管理器(如 yumapt-get 或适用于 macOS 的 Homebrew)通常比 AWS CLI 的最新版本落后几个版本。要安装最新版本,请参阅《AWS 命令行界面用户指南》中的安装使用 aws configure 快速配置。AWS CloudShell 中安装的 AWS CLI 版本也可能比最新版本落后几个版本。要对其进行更新,请参阅《AWS CloudShell 用户指南》中的将 AWS CLI 安装到您的主目录

  • 您的设备或 AWS CloudShell 上安装 0.194.0 版或更高版本的 eksctl 命令行工具。要安装或更新 eksctl,请参阅 eksctl 文档中的 Installation

  • 您的设备或 AWS CloudShell 上安装了 kubectl 命令行工具。该版本可以与集群的 Kubernetes 版本相同,或者最多早于或晚于该版本一个次要版本。例如,如果您的集群版本为 1.29,则可以将 kubectl1.281.291.30 版本与之配合使用。要安装或升级 kubectl,请参阅 设置 kubectl 和 eksctl

以下步骤可帮助您使用 FSx for Lustre CSI 驱动程序创建简单的测试集群,以便您了解其工作原理。我们不建议将测试集群用于生产工作负载。在本教程中,我们建议使用 example values,除非有说明要替换它们。您可以在完成生成集群的步骤时替换任何 example value。我们建议您在同一个终端中完成所有步骤,因为这些步骤中设置并使用了变量,而且这些变量不会存在于不同的终端中。

  1. 设置一些要在其余步骤中使用的变量。将 my-csi-fsx-cluster 替换为您要创建的测试集群的名称,并将 region-code 替换为您要在其中创建测试集群的 AWS 区域。

    export cluster_name=my-csi-fsx-cluster export region_code=region-code
  2. 创建测试集群。

    eksctl create cluster \ --name $cluster_name \ --region $region_code \ --with-oidc \ --ssh-access \ --ssh-public-key my-key

    集群预配置需要几分钟时间。在集群创建过程中,您将看到几行输出。输出的最后一行类似于以下示例行。

    [✓] EKS cluster "my-csi-fsx-cluster" in "region-code" region is ready
  3. 使用以下命令为驱动程序创建一个 Kubernetes 服务账户,并将 AmazonFSxFullAccess AWS 托管策略附加到该服务账户。如果您的集群位于 AWS GovCloud(美国东部)或 AWS GovCloud(美国西部)AWS 区域,则将 arn:aws: 替换为 arn:aws-us-gov:

    eksctl create iamserviceaccount \ --name fsx-csi-controller-sa \ --namespace kube-system \ --cluster $cluster_name \ --attach-policy-arn arn:aws:iam::aws:policy/AmazonFSxFullAccess \ --approve \ --role-name AmazonEKSFSxLustreCSIDriverFullAccess \ --region $region_code

    创建服务账户时,您将看到几行输出。输出的最后一行类似于以下行。

    [ℹ] 1 task: { 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/fsx-csi-controller-sa", create serviceaccount "kube-system/fsx-csi-controller-sa", } } [ℹ] building iamserviceaccount stack "eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] deploying stack "eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] waiting for CloudFormation stack "eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] created serviceaccount "kube-system/fsx-csi-controller-sa"

    记录已部署的 AWS CloudFormation 堆栈的名称。在上面的示例输出中,堆栈的名称为 eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa

  4. 使用以下命令部署驱动程序。将 release-X.XX 替换为所需的分支。不支持主分支,因为它可能包含与当前发布的稳定版本驱动程序不兼容的即将推出的功能。建议使用最新发布的版本。有关分支的列表,请参阅 GitHub 上的 aws-fsx-csi-driver Branches

    注意

    您可以在 GitHub 上的 aws-fsx-csi-driver/deploy/kubernetes/overlays/stable 中查看将应用的内容。

    kubectl apply -k "github.com/kubernetes-sigs/aws-fsx-csi-driver/deploy/kubernetes/overlays/stable/?ref=release-X.XX"

    示例输出如下。

    serviceaccount/fsx-csi-controller-sa created serviceaccount/fsx-csi-node-sa created clusterrole.rbac.authorization.k8s.io/fsx-csi-external-provisioner-role created clusterrole.rbac.authorization.k8s.io/fsx-external-resizer-role created clusterrolebinding.rbac.authorization.k8s.io/fsx-csi-external-provisioner-binding created clusterrolebinding.rbac.authorization.k8s.io/fsx-csi-resizer-binding created deployment.apps/fsx-csi-controller created daemonset.apps/fsx-csi-node created csidriver.storage.k8s.io/fsx.csi.aws.com created
  5. 记录所创建角色的 ARN。如果您早些时候没有注意到它并且没有在 AWS CLI 输出中再提供它,您可以执行以下操作以在 AWS Management Console中查看它。

    1. 打开 AWS CloudFormation 控制台

    2. 确保将控制台设置为您在其中创建 IAM 角色的 AWS 区域,然后选择堆栈

    3. 选择名为 eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa 的堆栈。

    4. 选择 Outputs(输出)选项卡。Role1 ARN 列于 Outputs(1)页面上。

  6. 使用以下命令修补驱动程序部署以添加之前创建的服务账户。将 ARN 替换为您记下的 ARN。请将 111122223333 替换为您的账户 ID。如果您的集群位于 AWS GovCloud(美国东部)或 AWS GovCloud(美国西部)AWS 区域,则将 arn:aws: 替换为 arn:aws-us-gov:

    kubectl annotate serviceaccount -n kube-system fsx-csi-controller-sa \ eks.amazonaws.com/role-arn=arn:aws:iam::111122223333:role/AmazonEKSFSxLustreCSIDriverFullAccess --overwrite=true

    示例输出如下。

    serviceaccount/fsx-csi-controller-sa annotated

此过程利用 FSx for Lustre 容器存储接口 (CSI) 驱动程序 GitHub 存储库来使用动态预置的 FSx for Lustre 卷。

  1. 注意集群的安全组。您可以在 AWS Management Console中的联网部分下或通过使用以下 AWS CLI 命令来查看它。

    aws eks describe-cluster --name $cluster_name --query cluster.resourcesVpcConfig.clusterSecurityGroupId
  2. 根据《Amazon FSx for Lustre 用户指南》中的 Amazon VPC 安全组显示的标准,为您的 Amazon FSx 文件系统创建安全组。对于 VPC,选择 Networking(联网)部分下显示的集群的 VPC。对于“与 Lustre 客户端关联的安全组”,请使用您的集群安全组。您可以单独保留出站规则以允许所有流量

  3. 使用下面的命令下载存储类清单。

    curl -O https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/storageclass.yaml
  4. 编辑 storageclass.yaml 文件的参数部分。将所有 example value 替换为您自己的值。

    parameters: subnetId: subnet-0eabfaa81fb22bcaf securityGroupIds: sg-068000ccf82dfba88 deploymentType: PERSISTENT_1 automaticBackupRetentionDays: "1" dailyAutomaticBackupStartTime: "00:00" copyTagsToBackups: "true" perUnitStorageThroughput: "200" dataCompressionType: "NONE" weeklyMaintenanceStartTime: "7:09:00" fileSystemTypeVersion: "2.12"
    • subnetId – 应在其中创建 Amazon FSx for Lustre 文件系统的子网 ID。并非所有可用区都支持 Amazon FSx for Lustre。打开 https://console.aws.amazon.com/fsx/ 中 Amazon FSx for Lustre 控制台,确认您要使用的子网是否位于支持的可用区中。该子网可以包含您的节点,也可以是不同的子网或 VPC:

      • 您可以通过在 Compute(计算)部分下选择节点组来在 AWS Management Console 中检查节点子网。

      • 如果您指定的子网不是节点所在的子网,则必须已连接 VPC,并且必须确保已在您的安全组中打开必要的端口。

    • securityGroupIds – 您为文件系统创建的安全组的 ID。

    • deploymentType(可选)– 文件系统部署类型。有效值为 SCRATCH_1SCRATCH_2PERSISTENT_1PERSISTENT_2。有关部署类型的更多信息,请参阅创建 Amazon FSx for Lustre 文件系统

    • 其他参数(可选) – 有关其他参数的信息,请参阅 GitHub 上的编辑 StorageClass

  5. 创建存储类清单。

    kubectl apply -f storageclass.yaml

    示例输出如下。

    storageclass.storage.k8s.io/fsx-sc created
  6. 下载持久卷注册清单。

    curl -O https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/claim.yaml
  7. (可选)编辑 claim.yaml 文件。根据您的存储需求和上一步选择的 deploymentType,将 1200Gi 更改为下面列出的增量值之一。

    storage: 1200Gi
    • SCRATCH_2PERSISTENT1.2 TiB2.4 TiB,或 2.4TiB 之上 2.4TiB 的增量。

    • SCRATCH_11.2 TiB2.4 TiB3.6 TiB,或 3.6TiB 之上 3.6TiB 的增量。

  8. 创建持久卷注册。

    kubectl apply -f claim.yaml

    示例输出如下。

    persistentvolumeclaim/fsx-claim created
  9. 确认已预配置文件系统。

    kubectl describe pvc

    示例输出如下。

    Name: fsx-claim Namespace: default StorageClass: fsx-sc Status: Bound [...]
    注意

    Status 可能会在 5-10 分钟内显示为 Pending,然后才会更改为 Bound。在 Status 变成 Bound 之前,请勿继续执行下一步。如果 Status 显示 Pending 10 分钟以上,使用 Events 中的警告消息作为解决任何问题的参考。

  10. 部署示例应用程序。

    kubectl apply -f https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/pod.yaml
  11. 验证示例应用程序正在运行。

    kubectl get pods

    示例输出如下。

    NAME READY STATUS RESTARTS AGE fsx-app 1/1 Running 0 8s
  12. 验证应用程序是否正确挂载了文件系统。

    kubectl exec -ti fsx-app -- df -h

    示例输出如下。

    Filesystem Size Used Avail Use% Mounted on overlay 80G 4.0G 77G 5% / tmpfs 64M 0 64M 0% /dev tmpfs 3.8G 0 3.8G 0% /sys/fs/cgroup 192.0.2.0@tcp:/abcdef01 1.1T 7.8M 1.1T 1% /data /dev/nvme0n1p1 80G 4.0G 77G 5% /etc/hosts shm 64M 0 64M 0% /dev/shm tmpfs 6.9G 12K 6.9G 1% /run/secrets/kubernetes.io/serviceaccount tmpfs 3.8G 0 3.8G 0% /proc/acpi tmpfs 3.8G 0 3.8G 0% /sys/firmware
  13. 验证示例应用程序已将数据写入 FSx for Lustre 文件系统。

    kubectl exec -it fsx-app -- ls /data

    示例输出如下。

    out.txt

    此示例输出显示示例应用程序成功编写了 out.txt 文件到文件系统。

注意

删除集群之前,请务必删除 FSx for Lustre 文件系统。有关更多信息,请参阅《FSx for Lustre 用户指南》中的清理资源