Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Recupero e conservazione dei log
AWS ParallelCluster crea parametri Amazon EC2 per istanze HeadNode e storage di calcolo. Puoi visualizzare i parametri nei dashboard personalizzati della console. CloudWatch AWS ParallelCluster crea anche flussi di CloudWatch log del cluster in gruppi di log. È possibile visualizzare questi registri nei dashboard personalizzati o nei CloudWatch gruppi di log della console. La sezione Configurazione del cluster di monitoraggio descrive come modificare i CloudWatch registri del cluster e il dashboard. Per ulteriori informazioni, consulta Integrazione con Amazon CloudWatch Logs e CloudWatch Pannello di controllo Amazon.
I log sono una risorsa utile per la risoluzione dei problemi. Ad esempio, se si desidera eliminare un cluster in errore, potrebbe essere utile creare prima un archivio dei log del cluster. Segui i passaggi indicati Registri di archivio per creare un archivio.
Argomenti
I log del cluster non sono disponibili in CloudWatch
Se i log del cluster non sono disponibili in CloudWatch, assicurati di non aver sovrascritto la configurazione del AWS ParallelCluster CloudWatch registro quando aggiungi log personalizzati alla configurazione.
Per aggiungere log personalizzati alla CloudWatch configurazione, assicurati di aggiungerli alla configurazione anziché recuperarli e sovrascriverli. Per ulteriori informazioni su fetch-config
eappend-config
, consulta File di configurazione per più CloudWatch agenti nella Guida per l'utente. CloudWatch
Per ripristinare la configurazione del AWS ParallelCluster CloudWatch registro, puoi eseguire i seguenti comandi all'interno di un AWS ParallelCluster nodo:
$
PLATFORM="$(ohai platform | jq -r ".[]")" LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")" SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")" NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")" CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json" /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s
Registri di archivio
Puoi archiviare i log in Amazon S3 o in un file locale (a seconda --output-file
del parametro).
Nota
Aggiungi le autorizzazioni alla policy dei bucket di Amazon S3 per concedere l'accesso. CloudWatch Per ulteriori informazioni, consulta Impostare le autorizzazioni su un bucket Amazon S3 nella CloudWatch Logs User Guide.
$
pcluster export-cluster-logs --cluster-name
mycluster
--regioneu-west-1
\ --bucketbucketname
--bucket-prefixlogs
{ "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." }
# use the --output-file parameter to save the logs locally$
pcluster export-cluster-logs --cluster-name
mycluster
--regioneu-west-1
\ --bucketbucketname
--bucket-prefixlogs
--output-file/tmp/archive.tar.gz
{ "path": "/tmp/archive.tar.gz" }
L'archivio contiene CloudWatch i flussi di Amazon Logs e gli eventi AWS CloudFormation dello stack dal nodo principale e dai nodi di calcolo degli ultimi 14 giorni, a meno che non sia specificato esplicitamente nella configurazione o nei parametri del comando. export-cluster-logs
Il tempo necessario per completare il comando dipende dal numero di nodi nel cluster e dal numero di flussi di log disponibili in Logs. CloudWatch Per ulteriori informazioni sui flussi di log disponibili, vedere. Integrazione con Amazon CloudWatch Logs
Registri conservati
A partire dalla versione 3.0.0, AWS ParallelCluster conserva i CloudWatch log per impostazione predefinita quando un cluster viene eliminato. Se desideri eliminare un cluster e conservarne i log, assicurati che Monitoring//LogsCloudWatch/DeletionPolicynon sia impostato su nella configurazione del cluster. Delete
Altrimenti, modifica il valore di questo campo in Retain
ed esegui il pcluster update-cluster
comando. Quindi, esegui pcluster delete-cluster --cluster-name
per eliminare il cluster, ma conserva il gruppo di log archiviato in Amazon CloudWatch.<cluster_name>
Registri dei nodi terminati
Se un nodo di calcolo statico termina inaspettatamente e non CloudWatch contiene alcun log, controlla se l'output della console per quel nodo di calcolo AWS ParallelCluster è stato registrato sul nodo principale del registro. /var/log/parallelcluster/compute_console_output
Per ulteriori informazioni, consulta Registri chiave per il debug.
Se il /var/log/parallelcluster/compute_console_output
log non è disponibile o non contiene l'output per il nodo, usa il per recuperare l'output della console dal AWS CLI nodo guasto. Accedi al nodo principale del cluster e recupera il nodo guasto instance-id
dal /var/log/parallelcluster/slurm_resume.log
file.
Recupera l'output della console utilizzando il seguente comando con: instance-id
$
aws ec2 get-console-output --instance-id
i-abcdef01234567890
Se un nodo di calcolo dinamico si interrompe automaticamente dopo l'avvio e non CloudWatch contiene alcun registro, invia un processo che attivi un'azione di scalabilità del cluster. Attendi che l'istanza fallisca e recupera il log della console dell'istanza.
Accedi al nodo principale del cluster e recupera il nodo di calcolo instance-id
dal /var/log/parallelcluster/slurm_resume.log
file.
Recuperate il registro della console dell'istanza utilizzando il seguente comando:
$
aws ec2 get-console-output --instance-id
i-abcdef01234567890
Il log di output della console può aiutarti a eseguire il debug della causa principale di un errore del nodo di calcolo quando il log del nodo di calcolo non è disponibile.