Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Intentando crear un clúster
Si se utiliza la AWS ParallelCluster versión 3.5.0 y versiones posteriores para crear un clúster y se produce un error al crearlo con el valor --rollback-on-failure
establecido enfalse
, utilice el pcluster describe-cluster CLI comando para obtener información sobre el estado y el error. En este caso, lo que se espera clusterStatus
del pcluster describe-cluster
resultado esCREATE_FAILED
. Compruebe la failures
sección de la salida para encontrar el failureCode
yfailureReason
. Luego, en la siguiente sección, busque la solución adecuada failureCode
para obtener ayuda adicional sobre la solución de problemas. Para obtener más información, consulte pcluster describe-cluster.
En las siguientes secciones, le recomendamos que compruebe los registros del nodo principal, como los /var/log/chef-client.log
archivos /var/log/cfn-init.log
and. Para obtener más información sobre AWS ParallelCluster los registros y cómo verlos, consulte Registros clave para la depuración yRecuperación y conservación de registros.
Si no tiene unofailureCode
, vaya a la AWS CloudFormation consola para ver la pila de clústeres. Compruebe si hay errores en otros recursos para obtener información adicional sobre los errores. Status Reason
HeadNodeWaitCondition
Para obtener más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED. Compruebe los /var/log/chef-client.log
archivos /var/log/cfn-init.log
y del nodo principal.
failureCode
es OnNodeConfiguredExecutionFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeConfigured
del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar. -
¿Cómo resolverlo?
Consulte el
/var/log/cfn-init.log
archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con elOnNodeConfigured
script después delRunning command runpostinstall
mensaje.
failureCode
es OnNodeConfiguredDownloadFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeConfigured
del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado. -
¿Cómo resolverlo?
Asegúrese de que URL es válido y de que el acceso está configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.
Compruebe los archivos en
/var/log/cfn-init.log
. Al final de este registro, es posible que, después delRunning command runpostinstall
mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de losOnNodeConfigured
scripts, incluida la descarga.
failureCode
es OnNodeConfiguredFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeConfigured
del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y es necesaria una investigación adicional. -
¿Cómo resolverlo?
Compruebe los archivos en
/var/log/cfn-init.log
. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento deOnNodeConfigured
scripts después delRunning command runpostinstall
mensaje.
failureCode
es OnNodeStartExecutionFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeStart
del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar. -
¿Cómo resolverlo?
Consulte el
/var/log/cfn-init.log
archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con elOnNodeStart
script después delRunning command runpreinstall
mensaje.
failureCode
es OnNodeStartDownloadFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeStart
del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado. -
¿Cómo resolverlo?
Asegúrese de que URL es válido y de que el acceso está configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.
Compruebe los archivos en
/var/log/cfn-init.log
. Al final de este registro, es posible que, después delRunning command runpreinstall
mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de losOnNodeStart
scripts, incluida la descarga.
failureCode
es OnNodeStartFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeStart
del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y es necesaria una investigación adicional. -
¿Cómo resolverlo?
Compruebe los archivos en
/var/log/cfn-init.log
. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento deOnNodeStart
scripts después delRunning command runpreinstall
mensaje.
failureCode
es EbsMountFailure
-
¿Por qué falló?
No se pudo montar el EBS volumen definido en la configuración del clúster.
-
¿Cómo resolverlo?
Consulte el archivo
/var/log/chef-client.log
para conocer los detalles del error.
failureCode
es EfsMountFailure
-
¿Por qué falló?
No se pudo montar el EFS volumen de Amazon definido en la configuración del clúster.
-
¿Cómo resolverlo?
Si has definido un sistema de EFS archivos de Amazon existente, asegúrate de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. EfsSettings FileSystemId.
Consulte el archivo
/var/log/chef-client.log
para conocer los detalles del error.
failureCode
es FsxMountFailure
-
¿Por qué falló?
No se pudo montar el sistema de FSx archivos de Amazon definido en la configuración del clúster.
-
¿Cómo resolverlo?
Si has definido un sistema de FSx archivos de Amazon existente, asegúrate de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. FsxLustreSettings FileSystemId.
Consulte el archivo
/var/log/chef-client.log
para conocer los detalles del error.
failureCode
es RaidMountFailure
-
¿Por qué falló?
No se pudieron montar los RAID volúmenes definidos en la configuración del clúster.
-
¿Cómo resolverlo?
Consulte el archivo
/var/log/chef-client.log
para conocer los detalles del error.
failureCode
es AmiVersionMismatch
-
¿Por qué falló?
La AWS ParallelCluster versión utilizada para crear la personalización AMI es diferente de la AWS ParallelCluster versión utilizada para configurar el clúster. En la CloudFormation consola, consulta los detalles de la CloudFormation pila de clústeres y
HeadNodeWaitCondition
compruébalosStatus Reason
para obtener información adicional sobre las AWS ParallelCluster versiones y lasAMI. Para obtener más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED. -
¿Cómo resolverlo?
Asegúrese de que la AWS ParallelCluster versión utilizada para crear la personalización AMI sea la misma AWS ParallelCluster que se utilizó para configurar el clúster. Puede cambiar la AMI versión personalizada o la
pcluster
CLI versión para que sean iguales.
failureCode
es InvalidAmi
-
¿Por qué falló?
La personalización no AMI es válida porque no se creó con AWS ParallelCluster.
-
¿Cómo resolverlo?
Usa el
pcluster build-image
comando para crear una AMI haciendo que tu imagen sea AMI la principal. Para obtener más información, consulte pcluster build-image.
failureCode
está HeadNodeBootstrapFailure
con failureReason
No se pudo configurar el nodo principal.
-
¿Por qué falló?
No se puede determinar una causa inmediata y es necesaria una investigación adicional. Por ejemplo, podría ser que el clúster esté en estado protegido y esto podría deberse a un fallo en el aprovisionamiento de la flota de computación estática.
-
¿Cómo resolverlo?
Consulte el archivo
/var/log/chef-client.log.
para conocer los detalles del error.nota
Si ve la excepción de
RuntimeError
Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning
, el clúster está en estado protegido. Para obtener más información, consulte Cómo depurar el modo protegido.
failureCode
está HeadNodeBootstrapFailure
agotando el tiempo de espera para la creación del failureReason
clúster.
-
¿Por qué falló?
De forma predeterminada, hay un límite de 30 minutos para que se complete la creación del clúster. Si la creación del clúster no se ha completado dentro de este período de tiempo, se produce un error de tiempo de espera. La creación del clúster puede agotarse por diferentes motivos. Por ejemplo, los errores de tiempo de espera pueden deberse a un error en la creación del nodo principal, a un problema de red, a scripts personalizados que tardan demasiado en ejecutarse en el nodo principal, a un error en un script personalizado que se ejecuta en los nodos de procesamiento o a tiempos de espera prolongados para el aprovisionamiento del nodo de procesamiento. No se puede determinar una causa inmediata y es necesaria una investigación adicional.
-
¿Cómo resolverlo?
Consulte los archivos
/var/log/cfn-init.log
y/var/log/chef-client.log
para conocer los detalles del error. Para obtener más información sobre los registros de AWS ParallelCluster y cómo obtenerlos, consulte Registros clave para la depuración y Recuperación y conservación de registros.Puede que descubra lo siguiente en estos registros.
-
Visualización de
Waiting for static fleet capacity provisioning
cerca del final delchef-client.log
Esto indica que se agotó el tiempo de espera para la creación del clúster al esperar a que se enciendan los nodos estáticos. Para obtener más información, consulte Visualización de errores en las inicializaciones de los nodos de computación.
-
La visualización del script del nodo principal de
OnNodeConfigured
oOnNodeStart
no ha finalizado al final delcfn-init.log
Esto indica que el script
OnNodeConfigured
o el scriptOnNodeStart
personalizado tardaron mucho en ejecutarse y provocaron un error de tiempo de espera. Compruebe si su script personalizado tiene problemas que puedan provocar que se ejecute durante mucho tiempo. Si el script personalizado tarda mucho en ejecutarse, considere la posibilidad de cambiar el límite de tiempo de espera añadiendo unaDevSettings
sección al archivo de configuración del clúster, como se muestra en el siguiente ejemplo:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
-
No se encuentran los registros o el nodo principal no se creó correctamente
Es posible que el nodo principal no se haya creado correctamente y que no se puedan encontrar los registros. En la CloudFormation consola, consulte los detalles de la pila de clústeres para comprobar si hay más detalles sobre el error.
-
failureCode
está HeadNodeBootstrapFailure
con failureReason
No se pudo iniciar el nodo principal.
-
¿Por qué falló?
No se puede determinar una causa inmediata y es necesaria una investigación adicional.
-
¿Cómo resolverlo?
Compruebe los campos
/var/log/cfn-init.log
y/var/log/chef-client.log
.
failureCode
es ResourceCreationFailure
-
¿Por qué falló?
La creación de algunos recursos falló durante el proceso de creación del clúster. El fallo puede producirse por varias razones: Por ejemplo, los errores en la creación de recursos pueden deberse a problemas de capacidad o a una IAM política mal configurada.
-
¿Cómo resolverlo?
En la CloudFormation consola, consulta la pila de clústeres para comprobar si hay más detalles sobre el error de creación de recursos.
failureCode
es ClusterCreationFailure
-
¿Por qué falló?
No se puede determinar una causa inmediata y es necesaria una investigación adicional.
-
¿Cómo resolverlo?
En la CloudFormation consola, visualice la pila de clústeres y compruebe si hay más detalles sobre el
HeadNodeWaitCondition
error.Status Reason
Compruebe los campos
/var/log/cfn-init.log
y/var/log/chef-client.log
.
¿Está viendo WaitCondition timed out...
en la CloudFormation pila
Para obtener más información, consulte failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster..
Ver Resource creation cancelled
en CloudFormation pila
Para obtener más información, consulte failureCode es ResourceCreationFailure.
Failed to run cfn-init...
¿Ve u otros errores en la AWS CloudFormation pila
Compruebe los detalles adicionales del fallo /var/log/cfn-init.log
y /var/log/chef-client.log
compruebe si hay más detalles.
Visualización de cómo chef-client.log
termina con INFO: Waiting for static fleet capacity provisioning
Esto está relacionado con el tiempo de espera para la creación del clúster cuando se espera a que se enciendan los nodos estáticos. Para obtener más información, consulte Visualización de errores en las inicializaciones de los nodos de computación.
Visualización de Failed to run preinstall or postinstall in cfn-init.log
Tiene un OnNodeStart
script OnNodeConfigured
or en la HeadNode
sección de configuración del clúster. El script no funciona correctamente. Compruebe el /var/log/cfn-init.log
archivo para ver los detalles de error del script personalizado.
¿Está viendo This AMI was created with xxx, but is trying to be used with xxx...
en la CloudFormation pila
Para obtener más información, consulte failureCode es AmiVersionMismatch.
Ver This AMI was not baked by AWS ParallelCluster...
en CloudFormation pila
Para obtener más información, consulte failureCode es InvalidAmi.
Visualización de cómo el comando pcluster create-cluster
no se ejecuta localmente
Consulte el ~/.parallelcluster/pcluster-cli.log
en su sistema de archivos local para conocer los detalles del error.
Compatibilidad adicional
Siga las instrucciones de solución de problemas que se indican enSolución de problemas de implementación del clúster.
Comprueba si tu situación está incluida en la sección Problemas GitHub conocidos