Rendimiento de Amazon FSx para Lustre - FSx para Lustre

Rendimiento de Amazon FSx para Lustre

Amazon FSx para Lustre, basado en Lustre, el popular sistema de archivos de alto rendimiento, proporciona un rendimiento de escalado horizontal que aumenta linealmente con el tamaño del sistema de archivos. Los sistemas de archivos de Lustre escalan horizontalmente en múltiples servidores y discos de archivos. Este escalado proporciona a cada cliente acceso directo a los datos almacenados en cada disco para eliminar muchos de los cuellos de botella presentes en los sistemas de archivos tradicionales. Amazon FSx para Lustre se basa en la arquitectura escalable de Lustre para admitir altos niveles de rendimiento en un gran número de clientes.

Cómo funcionan los sistemas de archivos de FSx para Lustre

Cada sistema de archivos de FSx para Lustre consta de los servidores de archivos con los que se comunican los clientes y un conjunto de discos conectados a cada servidor de archivos que almacenan sus datos. Cada servidor de archivos emplea un caché en memoria rápido para mejorar el rendimiento de los datos a los que se accede con más frecuencia. Los sistemas de archivos basados en HDD también se pueden aprovisionar con una caché de lectura basada en SSD para mejorar aún más el rendimiento de los datos a los que se accede con más frecuencia. Cuando un cliente accede a los datos almacenados en la caché en memoria o SSD, el servidor de archivos no necesita leerlos del disco, lo que reduce la latencia y aumenta el rendimiento total que se puede obtener. El siguiente diagrama ilustra las rutas de una operación de escritura, una operación de lectura servida desde el disco y una operación de lectura servida desde la caché en memoria o SSD.

Arquitectura de rendimiento FSx para Lustre.

Cuando se leen datos almacenados en la caché en memoria o SSD del servidor de archivos, el rendimiento del sistema de archivos viene determinado por el rendimiento de la red. Cuando se escriben datos en el sistema de archivos, o cuando se leen datos que no están almacenados en la caché en memoria, el rendimiento del sistema de archivos viene determinado por el menor entre el rendimiento de la red y el rendimiento del disco.

Cuando aprovisiona un sistema de archivos de Lustre en HDD con una memoria caché en SSD, Amazon FSx crea una memoria caché en SSD con un tamaño automático del 20 % de la capacidad de almacenamiento en HDD del sistema de archivos. De este modo, se consiguen latencias inferiores al milisegundo y mayores IOPS para los archivos a los que se accede con frecuencia.

Rendimiento agregado del sistema de archivos

El rendimiento que soporta un sistema de archivos de FSx para Lustre es proporcional a su capacidad de almacenamiento. Los sistemas de archivos de Amazon FSx para Lustre escalan a cientos de GBps de rendimiento y millones de IOPS. Amazon FSx para Lustre también soporta el acceso simultáneo al mismo archivo o directorio desde miles de instancias de computación. Este acceso permite la comprobación rápida de datos desde la memoria de la aplicación al almacenamiento, que es una técnica común en la computación de alto rendimiento (HPC). Puede aumentar la cantidad de almacenamiento y la capacidad de rendimiento según sea necesario en cualquier momento después de crear el sistema de archivos. Para obtener más información, consulte Administración de la capacidad de almacenamiento.

FSx para sistemas de archivos Lustre proporciona un rendimiento de lectura en ráfaga utilizando un mecanismo de crédito de E/S de red para asignar ancho de banda de la red basado en la utilización media del ancho de banda. Los sistemas de archivos acumulan créditos cuando el uso de su ancho de banda de la red está por debajo de sus límites de referencia, y pueden utilizar estos créditos cuando realizan transferencias de datos de red.

Las siguientes tablas muestran el rendimiento para el que están diseñadas las opciones de implementación de FSx para Lustre.

Rendimiento del sistema de archivos para opciones de almacenamiento SSD
Tipo de implementación Rendimiento de red (MB/s/TiB de almacenamiento aprovisionado) IOPS de red (IOPS/TiB de almacenamiento aprovisionado) Almacenamiento en caché (GiB de RAM/TiB de almacenamiento aprovisionado) Latencias de disco por operación de archivo (milisegundos, P50) Rendimiento del disco (MBps/TiB de almacenamiento o caché SSD aprovisionada)

Referencia

Ráfaga

Referencia

Ráfagas

SCRATCH_2 200 1300

Base de decenas de miles

Ráfaga de cientos de miles

6.7

Metadatos: sub-ms

Datos: sub-ms

200 (lectura)

100 (escritura)

PERSISTENTE-125 320 1300 3.4

125

500
PERSISTENT-250 640 1300 6.8

250

500
PERSISTENT-500 1300 13.7 500

PERSISTENT-1000 2600 27.3 1000
Rendimiento del sistema de archivos para opciones de almacenamiento HDD
Tipo de implementación Rendimiento de la red (MB/s/TiB de almacenamiento o caché SSD aprovisionada) IOPS de red (IOPS/TiB de almacenamiento aprovisionado) Almacenamiento en caché (GiB de RAM/TiB de almacenamiento aprovisionado) Latencias de disco por operación de archivo (milisegundos, P50) Rendimiento del disco (MBps/TiB de almacenamiento o caché SSD aprovisionada)

Referencia

Ráfaga

Referencia

Ráfagas

PERSISTENT-12
Almacenamiento en HDD 40 375*

Base de decenas de miles

Ráfaga de cientos de miles

0.4 memory

Metadatos: sub-ms

Datos: ms de un dígito

12

80 (lectura)

50 (escritura)

Caché de lectura SSD

200

1,900

Caché SSD 200

Datos: sub-ms

200

-

PERSISTENT-40
Almacenamiento en HDD 150 1,300*

Base de decenas de miles

Ráfaga de cientos de miles

1.5

Metadatos: sub-ms

Datos: ms de un dígito

40

250 (lectura)

150 (escritura)

Caché de lectura SSD

750

6500

200 SSD cache

Datos: sub-ms

200

-

Rendimiento del sistema de archivos para opciones de almacenamiento SSD de generaciones anteriores
Tipo de implementación Rendimiento de la red (MB/s por TiB de almacenamiento aprovisionado) IOPS de red (IOPS por TiB de almacenamiento aprovisionado) Almacenamiento en caché (GiB por TiB de almacenamiento aprovisionado) Latencias de disco por operación de archivo (milisegundos, P50) Rendimiento del disco (MB/s por TiB de almacenamiento o caché SSD aprovisionada)

Referencia

Ráfaga

Referencia

Ráfagas

PERSISTENT-50 250 1,300*

Base de decenas de miles

Ráfaga de cientos de miles

2.2 RAM

Metadatos: sub-ms

Datos: sub-ms

50

240

PERSISTENT-100 500 1,300* 4.4 RAM 100 240
PERSISTENT-200 750 1,300* 8.8 RAM 200 240
nota

*Los sistemas de archivos persistentes de las siguientes Regiones de AWS proporcionan una ráfaga de red de hasta 530 MB/s por TiB de almacenamiento: África (Ciudad del Cabo), Asia-Pacífico (Hong Kong), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Canadá (centro), Europa (Fráncfort), Europa (Londres), Europa (Milán), Europa (Estocolmo), Medio Oriente (Baréin), América del Sur (São Paulo), China y Oeste de EE. UU. (Los Ángeles).

Ejemplo: rendimiento de referencia y de ráfaga agregado

El siguiente ejemplo ilustra cómo la capacidad de almacenamiento y el rendimiento del disco afectan al rendimiento del sistema de archivos.

Un sistema de archivos persistente con una capacidad de almacenamiento de 4,8 TiB y 50 MB/s por TiB de rendimiento por unidad de almacenamiento proporciona un rendimiento de disco de referencia agregado de 240 MB/s y un rendimiento de disco en ráfaga de 1,152 GB/s.

Independientemente del tamaño del sistema de archivos, Amazon FSx para Lustre proporciona latencias constantes de menos de un milisegundo para las operaciones de archivos.

Rendimiento de los metadatos del sistema de archivos

Las operaciones de E/S por segundo (IOPS) de los metadatos del sistema de archivos determinan la cantidad de archivos y directorios que puede crear, enumerar, leer y eliminar por segundo. Las IOPS de metadatos se aprovisionan automáticamente en los sistemas de archivos de FSx para Lustre en función de la capacidad de almacenamiento que aprovisione.

Los sistemas de archivos Persistent_2 le permiten aprovisionar las IOPS de metadatos independientemente de la capacidad de almacenamiento y proporcionan una mayor visibilidad de la cantidad y el tipo de IOPS de metadatos que incorporan las instancias de cliente al sistema de archivos.

Con los sistemas de archivos Persistent_2 de FSx para Lustre, la cantidad de IOPS de metadatos que aprovisione y el tipo de operación de metadatos determinan la tasa de operaciones de metadatos que el sistema de archivos puede admitir. El nivel de IOPS de metadatos que aprovisione determina la cantidad de IOPS aprovisionadas para los discos de metadatos del sistema de archivos.

Tipo de operación Operaciones que puede realizar por segundo para cada IOPS de metadatos aprovisionadas

Crear, abrir y cerrar archivos

2

Eliminar archivos

1

Crear y renombrar directorios

0.1

Eliminar directorios

0.2

Puede elegir aprovisionar las IOPS de metadatos mediante el modo automático o el modo aprovisionado por el usuario. En el modo automático, Amazon FSx aprovisiona IOPS de metadatos en función de la capacidad de almacenamiento del sistema de archivos de acuerdo con la siguiente tabla:

Capacidad de almacenamiento del sistema de archivos IOPS de metadatos incluidas en el modo automático

1200 GiB

1500

2400 GiB

3 000

De 4800 a 9600 GiB

6000

De 12 000 a 45 600 GiB

12 000

≥48 000 GiB

12 000 IOPS por 24 000 GiB

En el modo aprovisionado por el usuario, puede optar por especificar la cantidad de IOPS de metadatos por aprovisionar. Usted paga por las IOPS de metadatos aprovisionadas por encima de la cantidad predeterminada de IOPS de metadatos en el sistema de archivos.

Disposición de almacenamiento del sistema de archivos

Todos los datos de archivos de Lustre se almacenan en volúmenes de almacenamiento denominados destinos de almacenamiento de objetos (OST). Todos los metadatos de archivos (incluidos nombres de archivos, marcas de tiempo, permisos, etc.) se almacenan en volúmenes de almacenamiento llamados destinos de metadatos (MDT). Los sistemas de archivos de Amazon FSx para Lustre se componen de uno o más MDT y varios OST. Cada OST tiene un tamaño aproximado de 1 a 2 TiB, según el tipo de implementación del sistema de archivos. Amazon FSx para Lustre distribuye sus datos de archivos entre los OST que componen su sistema de archivos para equilibrar la capacidad de almacenamiento con el rendimiento y la carga de IOPS.

Para ver el uso de almacenamiento de los MDT y OST que componen su sistema de archivos, ejecute el siguiente comando desde un cliente que tenga montado el sistema de archivos.

lfs df -h mount/path

El resultado de este comando tendrá un aspecto similar al siguiente.

UUID bytes Used Available Use% Mounted on mountname-MDT0000_UUID 68.7G 5.4M 68.7G 0% /fsx[MDT:0] mountname-OST0000_UUID 1.1T 4.5M 1.1T 0% /fsx[OST:0] mountname-OST0001_UUID 1.1T 4.5M 1.1T 0% /fsx[OST:1] filesystem_summary: 2.2T 9.0M 2.2T 0% /fsx

Fragmentación de datos en su sistema de archivos

Puede optimizar el rendimiento de su sistema de archivos con la fragmentación de archivos. Amazon FSx para Lustre distribuye automáticamente los archivos entre los OST para garantizar que los datos se sirven desde todos los servidores de almacenamiento. Puede aplicar el mismo concepto a nivel de archivo configurando cómo se distribuyen los archivos a través de múltiples OST.

Fragmentación significa que los archivos pueden ser divididos en múltiples trozos que son almacenados en diferentes OST. Cuando un archivo se divide en varios OST, las peticiones de lectura o escritura en el archivo se reparten entre esos OST, aumentando el rendimiento agregado o IOPS que sus aplicaciones pueden manejar a través de él.

Los siguientes son los diseños predeterminados de los sistemas de archivos de Amazon FSx para Lustre.

  • Para los sistemas de archivos creados antes del 18 de diciembre de 2020, el diseño predeterminado especifica el número de franjas de 1. Esto significa que, a menos que se especifique un diseño diferente, cada archivo creado en Amazon FSx para Lustre con las herramientas estándar de Linux se almacena en un único disco.

  • Para los sistemas de archivos creados después del 18 de diciembre de 2020, el diseño predeterminado es un diseño de archivos progresivo en el que los archivos de menos de 1 GB de tamaño se almacenan en una franja, y a los archivos de mayor tamaño se les asigna un número de fragmento de 5.

  • Para los sistemas de archivos creados después del 25 de agosto de 2023, la disposición por defecto es una disposición de archivos progresiva de 4 componentes que se explica en Disposición progresiva de archivos.

  • Para todos los sistemas de archivos, independientemente de su fecha de creación, los archivos importados de Amazon S3 no utilizan el diseño predeterminado, sino que utilizan el diseño del parámetro ImportedFileChunkSize del sistema de archivos. Los archivos importados en S3 con un tamaño superior al ImportedFileChunkSize se almacenarán en varios OST con un número de franjas de (FileSize / ImportedFileChunksize) + 1. El valor predeterminado de ImportedFileChunkSize es 1 GiB.

Puede ver la configuración de diseño de un archivo o directorio mediante el comando lfs getstripe.

lfs getstripe path/to/filename

Este comando indica el número de franjas, el tamaño y el desfase de fragmentos de un archivo. El número de franjas indica el número de OST en las que se divide el archivo. El tamaño de franja es la cantidad de datos continuos que se almacenan en un OST. El desplazamiento de franja es el índice del primer OST sobre el que se divide el archivo.

Modificar la configuración de franjas

Los parámetros de diseño de un archivo se establecen cuando se crea el archivo por primera vez. Utilice el comando lfs setstripe para crear un nuevo archivo vacío con una disposición específica.

lfs setstripe filename --stripe-count number_of_OSTs

El comando lfs setstripe afecta a la disposición de un nuevo archivo. Úselo para especificar la disposición de un archivo antes de crearlo. También puede definir una disposición para un directorio. Una vez establecida en un directorio, esa disposición se aplica a cada nuevo archivo añadido a ese directorio, pero no a los archivos existentes. Cualquier nuevo subdirectorio que cree también hereda la nueva disposición, que se aplica a los nuevos archivos o directorios que se creen dentro de ese subdirectorio.

Para modificar la disposición de un archivo existente, utilice el comando lfs migrate. Este comando copia el archivo según sea necesario para distribuir su contenido de acuerdo con la disposición que especifique en el comando. Por ejemplo, los archivos anexados o cuyo tamaño ha aumentado no cambian el número de franjas, por lo que hay que migrarlos para cambiar el diseño del archivo. Alternativamente, puede crear un nuevo archivo utilizando el comando lfs setstripe para especificar su distribución, copiar el contenido original en el nuevo archivo y cambiar el nombre del nuevo archivo para reemplazar el archivo original.

Puede haber casos en los que la configuración de la presentación por defecto no sea óptima para su carga de trabajo. Por ejemplo, un sistema de archivos con decenas de OST y una gran cantidad de archivos de varios gigabytes puede obtener un rendimiento superior al dividir los archivos en secciones superiores al valor de recuento de franjas predeterminado de cinco OST. La creación de archivos de gran tamaño con un número reducido de franjas puede provocar cuellos de botella en el rendimiento de E/S y también provocar que las OST se llenen. En este caso, puede crear un directorio con un mayor número de franjas para estos archivos.

Es importante configurar un diseño de franjas para archivos grandes (especialmente para archivos de más de un gigabyte de tamaño) por las siguientes razones:

  • Mejora el rendimiento al permitir que varios OST y sus servidores asociados contribuyan con IOPS, ancho de banda de la red y recursos de CPU al leer y escribir archivos de gran tamaño.

  • Reduce la probabilidad de que un pequeño subconjunto de OST se convierta en puntos calientes que limiten el rendimiento general de la carga de trabajo.

  • Evita que un solo archivo grande llene un OST, lo que podría provocar errores de llenado del disco.

No existe una única configuración de distribución óptima para todos los casos de uso. Para obtener una guía detallada sobre la distribución de archivos, consulte Administración de la distribución de archivos (fragmentación) y del espacio libre en la documentación de Lustre.org. A continuación, se ofrecen unas directrices generales:

  • El diseño de franjas es más importante para los archivos de gran tamaño, especialmente para los casos de uso en los que los archivos suelen tener un tamaño de cientos de megabytes o más. Por este motivo, el diseño predeterminado de un nuevo sistema de archivos asigna un recuento de franjas de cinco a los archivos de más de 1 GiB de tamaño.

  • El recuento de franjas es el parámetro de diseño que se debe ajustar para los sistemas que admiten archivos de gran tamaño. El recuento de franjas especifica el número de volúmenes OST que pueden contener fragmentos de un archivo segmentado. Por ejemplo, con un número de fragmentos de 2 y un tamaño de fragmento de 1 MiB, Lustre escribe porciones alternativas de 1 MiB de un archivo en cada una de las dos OST.

  • El número efectivo de franjas es el menor entre el número real de volúmenes OST y el valor del recuento de franjas que especifique. Puede utilizar el valor especial del recuento de franjas de -1 para indicar que las franjas deben colocarse en todos los volúmenes OST.

  • Establecer un gran número de fragmentos para archivos pequeños no es óptimo, ya que, para algunas operaciones, Lustre requiere un recorrido de ida y vuelta en red a todos los OST del diseño, incluso si el archivo es demasiado pequeño para ocupar espacio en todos los volúmenes de OST.

  • Puede configurar una disposición progresiva de archivos (PFL) que permita que la disposición de un archivo cambie con el tamaño. Una configuración PFL puede simplificar la gestión de un sistema de archivos que tenga una combinación de archivos grandes y pequeños sin tener que establecer explícitamente una configuración para cada archivo. Para obtener más información, consulte Disposición progresiva de archivos.

  • El tamaño predeterminado de la banda es de 1 MiB. Definir un desfase de franjas puede resultar útil en circunstancias especiales, pero en general es mejor dejarlo sin especificar y utilizar el valor predeterminado.

Disposición progresiva de archivos

Puede especificar una configuración de diseño de archivos progresivo (PFL) para un directorio con el fin de especificar diferentes configuraciones de franjas para archivos pequeños y grandes antes de rellenarlo. Por ejemplo, puede establecer una PFL en el directorio de nivel superior antes de que se escriba cualquier dato en un nuevo sistema de archivos.

Para especificar una configuración de PFL, utilice el comando lfs setstripe con las opciones -E para especificar los componentes de disposición para archivos de diferentes tamaños, como el siguiente comando:

lfs setstripe -E 100M -c 1 -E 10G -c 8 -E 100G -c 16 -E -1 -c 32 /mountname/directory

Este comando establece cuatro componentes de disposición:

  • El primer componente (-E 100M -c 1) indica un valor de recuento de franjas de 1 para archivos de un tamaño máximo de 100 MiB.

  • El segundo componente (-E 10G -c 8) indica un recuento de franjas de 8 para archivos de hasta 10 GiB de tamaño.

  • El tercer componente (-E 100G -c 16) indica un recuento de franjas de 16 para archivos de hasta 100 GiB de tamaño.

  • El cuarto componente (-E -1 -c 32) indica un recuento de franjas de 32 para archivos de más de 100 GiB.

importante

Si se agregan datos a un archivo creado con una configuración PFL, se rellenarán todos sus componentes de diseño. Por ejemplo, con el comando de 4 componentes mostrado arriba, si crea un archivo de 1 MiB y luego agrega datos al final del archivo, el diseño del archivo se expandirá para tener un conteo de franjas de -1, es decir, todos los OST en el sistema. Esto no significa que se escribirán datos en cada OST, pero una operación como la lectura de la longitud del fichero enviará una petición en paralelo a cada OST, añadiendo una carga de red significativa al sistema de archivos.

Por lo tanto, tenga cuidado de limitar el número de franjas para cualquier archivo de longitud pequeña o mediana al que posteriormente se le puedan agregar datos. Dado que los archivos de registro suelen crecer al añadirse nuevos registros, Amazon FSx para Lustre asigna un recuento de franjas predeterminado de 1 a cualquier archivo creado en modo de adición, independientemente de la configuración de franjas predeterminada especificada por su directorio principal.

La configuración de PFL predeterminada para los sistemas de archivos en Amazon FSx para Lustre creados después del 25 de agosto de 2023 se establece con este comando:

lfs setstripe -E 100M -c 1 -E 10G -c 8 -E 100G -c 16 -E -1 -c 32 /mountname

Los clientes con cargas de trabajo que tienen un acceso altamente concurrente en archivos medianos y grandes probablemente se beneficien de una disposición con más franjas en tamaños más pequeños y franjas en todos los OST para los archivos más grandes, como se muestra en la disposición de ejemplo de cuatro componentes.

Supervisión del rendimiento y uso

Cada minuto, Amazon FSx para Lustre emite métricas de uso de cada disco (MDT y OST) a Amazon CloudWatch.

Para ver los detalles de uso agregados del sistema de archivos, puede consultar la estadística Suma de cada métrica. Por ejemplo, la suma de la estadística DataReadBytes indica el rendimiento total de lectura observado por todos los OST de un sistema de archivos. Del mismo modo, la suma de la estadística FreeDataStorageCapacity indica la capacidad total de almacenamiento disponible para los datos de los archivos en el sistema de archivos.

Para obtener más información sobre la supervisión del rendimiento del sistema de archivos, consulte Supervisión de sistemas de archivos de Amazon FSx para Lustre.

Consejos de rendimiento

Cuando utilice Amazon FSx para Lustre, tenga en cuenta los siguientes consejos de rendimiento. Para conocer los límites de servicio, consulte Cuotas de Amazon FSx para Lustre.

  • Tamaño medio de E/S: dado que Amazon FSx para Lustre es un sistema de archivos de red, cada operación de archivo pasa por un viaje de ida y vuelta entre el cliente y Amazon FSx para Lustre, incurriendo en una pequeña sobrecarga de latencia. Debido a esta latencia por operación, el desempeño global suele aumentar a la par que el tamaño medio de E/S, porque el costo se amortiza con la mayor cantidad de datos.

  • Modelo de solicitud: Al activar las escrituras asíncronas en el sistema de archivos, las operaciones de escritura pendientes se almacenan en el búfer de memoria en la instancia de Amazon EC2 antes de escribirse en Amazon FSx para Lustre de forma asíncrona. Las escrituras asíncronas suelen tener latencias menores. Cuando se realizan escrituras asíncronas, el kernel utiliza memoria adicional para el almacenamiento en caché. Un sistema de archivos que haya habilitado las escrituras síncronas emite solicitudes síncronas a Amazon FSx para Lustre. Cada operación realizará un recorrido de ida y vuelta entre el cliente y Amazon FSx para Lustre.

    nota

    El modelo de solicitud elegido tiene contrapartidas en la coherencia (si utiliza varias instancias de Amazon EC2) y en la velocidad.

  • Limite el tamaño del directorio: para lograr un rendimiento óptimo de los metadatos en los sistemas de archivos Persistent_2 de FSx para Lustre, limite cada directorio a menos de 100 000 archivos. Al limitar el número de archivos de un directorio, se reduce el tiempo requerido para que el sistema de archivos bloquee el directorio principal.

  • Instancias de Amazon EC2: las aplicaciones que realizan un gran número de operaciones de lectura y escritura probablemente necesitan más memoria o capacidad de computación que las aplicaciones que no. Cuando lance sus instancias de Amazon EC2 para su carga de trabajo de cómputo intensivo, elija los tipos de instancia que tengan la cantidad de estos recursos que su aplicación necesita. Las características de desempeño de los sistemas de archivos de Amazon FSx para Lustre no dependen del uso de instancias optimizadas para Amazon EBS.

  • Se recomienda ajustar las instancias de cliente para obtener un rendimiento óptimo

    1. En todos los tipos y tamaños de instancias de cliente, recomendamos aplicar el siguiente ajuste:

      sudo lctl set_param osc.*.max_dirty_mb=64
    2. Para tipos de instancia de cliente con memoria de más de 64 GiB, recomendamos aplicar el siguiente ajuste:

      sudo lctl set_param ldlm.namespaces.*.lru_max_age=600000 sudo lctl set_param ldlm.namespaces.*.lru_size=<100 * number_of_CPUs>
    3. Para tipos de instancia de cliente con más de 64 núcleos vCPU, recomendamos aplicar el siguiente ajuste:

      echo "options ptlrpc ptlrpcd_per_cpt_max=32" >> /etc/modprobe.d/modprobe.conf echo "options ksocklnd credits=2560" >> /etc/modprobe.d/modprobe.conf # reload all kernel modules to apply the above two settings sudo reboot

      Una vez montado el cliente, es necesario aplicar el siguiente ajuste:

      sudo lctl set_param osc.*OST*.max_rpcs_in_flight=32 sudo lctl set_param mdc.*.max_rpcs_in_flight=64 sudo lctl set_param mdc.*.max_mod_rpcs_in_flight=50

    Tenga en cuenta que se sabe que lctl set_param no persiste durante el reinicio. Dado que estos parámetros no pueden establecerse permanentemente desde el lado del cliente, se recomienda implementar una tarea cron de arranque para establecer la configuración con los ajustes recomendados.

  • Equilibrio de la carga de trabajo entre los OST: en algunos casos, la carga de trabajo no impulsa el rendimiento total que puede ofrecer el sistema de archivos (200 MB/s por TiB de almacenamiento). Si es así, puede utilizar las métricas de CloudWatch para solucionar problemas si el rendimiento se ve afectado por un desequilibrio en los patrones de E/S de su carga de trabajo. Para identificar si esta es la causa, consulte la métrica máxima de CloudWatch para Amazon FSx para Lustre.

    En algunos casos, esta estadística muestra una carga igual o superior a 240 MBps de rendimiento (la capacidad de rendimiento de un único disco de 1,2 TiB de Amazon FSx para Lustre). En estos casos, la carga de trabajo no se distribuye uniformemente entre los discos. Si este es el caso, puede usar el comando lfs setstripe para modificar la división de archivos a los que su carga de trabajo accede con más frecuencia. Para obtener un rendimiento óptimo, distribuya los archivos con requisitos de alto rendimiento en todos los OST que componen su sistema de archivos.

    Si los archivos se importan de un repositorio de datos, puede adoptar otro enfoque para distribuir los archivos de alto rendimiento de manera uniforme en todos los OST. Para ello, puede modificar el parámetro ImportedFileChunkSize al crear su próximo sistema de archivos Amazon FSx para Lustre.

    Por ejemplo, supongamos que su carga de trabajo utiliza un sistema de archivos de 7,0 TiB (que se compone de 6 OST de 1,17 TiB) y necesita impulsar un rendimiento alto a través de archivos de 2,4 GiB. En este caso, puede establecer el valor ImportedFileChunkSize en (2.4 GiB / 6 OSTs) = 400 MiB para que los archivos se distribuyan uniformemente entre los OST del sistema de archivos.

  • Cliente de Lustre para IOPS de metadatos: si el sistema de archivos tiene una configuración de metadatos especificada, recomendamos que instale un cliente Lustre 2.15 o Lustre 2.12 con una de estas versiones de sistema operativo: Amazon Linux 2023; Amazon Linux 2; Red Hat/Rocky Linux 8.9, 8.10 o 9.x; CentOS 8.9 u 8.10; Ubuntu 22 con kernel 6.2 o 6.5; o Ubuntu 20.