Utilisation du calculateur ADA (IDRIS)

Connexion

  1. Se connecter au noeud de login distant (machine ADA) depuis les noeuds de login du mésocentre : mesocluster.univ-fcomte.fr ou mesocluster2.univ-fcomte.fr
    $ ssh -XC rtsl001@ada.idris.fr
  2. Se placer dans le répertoire de travail WORKDIR :
    $ cd $WORKDIR

    tous les fichiers et scripts seront stockés ici.

Transfert des fichiers

  • Copier les fichiers depuis le mésocentre vers la machine ADA
    $ scp simulation.zip rtsl001@ada.idris.fr:WORK/

    cela va copier le fichier simulation.zip du mésocentre vers ADA (le répertoire de travail (WORKDIR)

  • Copier les fichiers depuis ADA vers le mésocentre
    $ scp  simulation.zip login_MESO@mesocluster.univ-fcomte.fr:WORK/

    cela va copier le fichier simulation.zip de ADA vers le mésocentre.

Lancement des jobs

Contrairement au mésocentre, le script de soumission contient des commandes supplémentaires :

  • Avant le calcul, il faut copier tous les fichiers de simulations dans le répertoire $TMPDIR
  • Après le calcul il faut copier les fichiers résultats vers le répertoire de soumission car $TMPDIR sera effacé à la fin du calcul.

Créer un script de soumission dans le répertoire de travail $WORKDIR.

Version avec $TMPDIR

namd.ll
# Nom du travail LoadLeveler
# @ job_name= namd
# Fichier de sortie standard du travail
# @ output  = $(job_name).$(jobid)
# Fichier de sortie d'erreur du travail
# @ error   = $(job_name).$(jobid)
# Type de travail
# @ job_type= parallel
# Nombre de processus demandes (ici 64)
# @ total_tasks = 64
# Temps ELAPSED max. pour l'ensemble du job en hh:mm:ss (10mn ici)
# @ wall_clock_limit = 00:10:00
# @ queue
 
 
 
# Repertoire temporaire de travail
 
cd $TMPDIR
 
# La variable LOADL_STEP_INITDIR est automatiquement positionnee par
# LoadLeveler au repertoire dans lequel on tape la commande llsubmit
 
# IMPORTANT COPIE TOUS LES FICHIERS PARAMETRES VERS TMPDIR
 
cp $LOADL_STEP_INITDIR/* . 
 
 
 
# Execution d'un programme MPI.
 
module load namd
 
poe namd2 BN_TR.01.namd > BN_TR.01.out
 
 
# COPIE LES FICHIERS DE SORTIE VERS LE REPERTOIRE DE SOUMISSION
# ATTENTION : TMPDIR EST SUPRIMME APRES LA FIN DU JOB
 
cp * $LOADL_STEP_INITDIR/

Version avec $WORKDIR

namd2.ll
# Nom du travail LoadLeveler
# @ job_name= namd
# Fichier de sortie standard du travail
# @ output  = $(job_name).$(jobid)
# Fichier de sortie d'erreur du travail
# @ error   = $(job_name).$(jobid)
# Type de travail
# @ job_type= parallel
# Nombre de processus demandes (ici 64)
# @ total_tasks = 64
# Temps ELAPSED max. pour l'ensemble du job en hh:mm:ss (10mn ici)
# @ wall_clock_limit = 00:10:00
# @ queue
 
 
 
 
# Execution d'un programme MPI.
 
SCRIPT_NAME=BN_TR.O1
 
module load namd
 
poe namd2 $SCRIPT_NAME.namd > $SCRIPT_NAME.out

Lancer le job avec :

$ llsubmit namd.ll

Vérifier les jobs :

llq -u rtsl001

Supprimer les jobs :

llcancel numeroDuJob

Pour contrôler la consommation : idrjar

Afficher le temps consommé en heures :

[rtsl001@ada337: ERG]$ idrjar
|-------------------------------------------|
|--- IDRIS/CNRS. Version du 18 mars 2015 ---|
|-------------------------------------------|
 
Sorties concernant l'identifiant rtsl001 pour la periode du
	==> 01 avril 2015 au 13 avril 2015
 
 
 Owner  Job Name      JobId      Queue tEse tCpu  #T   (%)   S
------- -------- --------------- ----- ---- ---- --- ------- -
rtsl001 namd     ada337.382574.0 c64t1    2    0  64    0.00 C
rtsl001 namd     ada337.382582.0 c64t1   27 1198  64   69.33 C
rtsl001 namd     ada337.382583.0 c64t1   27 1209  64   69.97 C
rtsl001 namd     ada337.382804.0 c64t1   26 1192  64   71.63 C
rtsl001 namd     ada337.382812.0 c64t1   26 1220  64   73.32 C
rtsl001 namd     ada337.382823.0 c64t1   27 1189  64   68.81 C
rtsl001 namd     ada337.382834.0 c64t1   27 1230  64   71.18 C
--------------------------------------------------------------
CONSOMMATION TOTALE DES TRAVAUX CI-DESSUS ==> 10368s, soit 2.88h
 
 
------------------------------- LEGENDE -------------------------------
tEse  : temps "Elapsed" consomme en secondes. (Temps facture = tEse*#T)
tCpu  : temps CPU consomme en secondes, pour information.
#T    : nombre de coeurs reserves.
(%)   : taux d'efficacite du travail ==> tCpu*100/(tEse*#T).
S     : C (completed) ==> travail termine normalement.
        R (removed)   ==> travail detruit en cours d'execution a l'aide
                          de la commande "llcancel" par exemple.

Liens