Utilisation du calculateur ADA (IDRIS)
Connexion
- Se connecter au noeud de login distant (machine ADA) depuis les noeuds de login du mésocentre :
mesocluster.univ-fcomte.fr
oumesocluster2.univ-fcomte.fr
$ ssh -XC rtsl001@ada.idris.fr
- Se placer dans le répertoire de travail WORKDIR :
$ cd $WORKDIR
tous les fichiers et scripts seront stockés ici.
Transfert des fichiers
- Copier les fichiers depuis le mésocentre vers la machine ADA
$ scp simulation.zip rtsl001@ada.idris.fr:WORK/
cela va copier le fichier simulation.zip du mésocentre vers ADA (le répertoire de travail (WORKDIR)
- Copier les fichiers depuis ADA vers le mésocentre
$ scp simulation.zip login_MESO@mesocluster.univ-fcomte.fr:WORK/
cela va copier le fichier simulation.zip de ADA vers le mésocentre.
Lancement des jobs
Contrairement au mésocentre, le script de soumission contient des commandes supplémentaires :
- Avant le calcul, il faut copier tous les fichiers de simulations dans le répertoire
$TMPDIR
- Après le calcul il faut copier les fichiers résultats vers le répertoire de soumission car
$TMPDIR
sera effacé à la fin du calcul.
Créer un script de soumission dans le répertoire de travail $WORKDIR
.
Version avec
$TMPDIR
- namd.ll
# Nom du travail LoadLeveler # @ job_name= namd # Fichier de sortie standard du travail # @ output = $(job_name).$(jobid) # Fichier de sortie d'erreur du travail # @ error = $(job_name).$(jobid) # Type de travail # @ job_type= parallel # Nombre de processus demandes (ici 64) # @ total_tasks = 64 # Temps ELAPSED max. pour l'ensemble du job en hh:mm:ss (10mn ici) # @ wall_clock_limit = 00:10:00 # @ queue # Repertoire temporaire de travail cd $TMPDIR # La variable LOADL_STEP_INITDIR est automatiquement positionnee par # LoadLeveler au repertoire dans lequel on tape la commande llsubmit # IMPORTANT COPIE TOUS LES FICHIERS PARAMETRES VERS TMPDIR cp $LOADL_STEP_INITDIR/* . # Execution d'un programme MPI. module load namd poe namd2 BN_TR.01.namd > BN_TR.01.out # COPIE LES FICHIERS DE SORTIE VERS LE REPERTOIRE DE SOUMISSION # ATTENTION : TMPDIR EST SUPRIMME APRES LA FIN DU JOB cp * $LOADL_STEP_INITDIR/
Version avec
$WORKDIR
- namd2.ll
# Nom du travail LoadLeveler # @ job_name= namd # Fichier de sortie standard du travail # @ output = $(job_name).$(jobid) # Fichier de sortie d'erreur du travail # @ error = $(job_name).$(jobid) # Type de travail # @ job_type= parallel # Nombre de processus demandes (ici 64) # @ total_tasks = 64 # Temps ELAPSED max. pour l'ensemble du job en hh:mm:ss (10mn ici) # @ wall_clock_limit = 00:10:00 # @ queue # Execution d'un programme MPI. SCRIPT_NAME=BN_TR.O1 module load namd poe namd2 $SCRIPT_NAME.namd > $SCRIPT_NAME.out
Lancer le job avec :
$ llsubmit namd.ll
Vérifier les jobs :
llq -u rtsl001
Supprimer les jobs :
llcancel numeroDuJob
Pour contrôler la consommation : idrjar
Afficher le temps consommé en heures :
[rtsl001@ada337: ERG]$ idrjar |-------------------------------------------| |--- IDRIS/CNRS. Version du 18 mars 2015 ---| |-------------------------------------------| Sorties concernant l'identifiant rtsl001 pour la periode du ==> 01 avril 2015 au 13 avril 2015 Owner Job Name JobId Queue tEse tCpu #T (%) S ------- -------- --------------- ----- ---- ---- --- ------- - rtsl001 namd ada337.382574.0 c64t1 2 0 64 0.00 C rtsl001 namd ada337.382582.0 c64t1 27 1198 64 69.33 C rtsl001 namd ada337.382583.0 c64t1 27 1209 64 69.97 C rtsl001 namd ada337.382804.0 c64t1 26 1192 64 71.63 C rtsl001 namd ada337.382812.0 c64t1 26 1220 64 73.32 C rtsl001 namd ada337.382823.0 c64t1 27 1189 64 68.81 C rtsl001 namd ada337.382834.0 c64t1 27 1230 64 71.18 C -------------------------------------------------------------- CONSOMMATION TOTALE DES TRAVAUX CI-DESSUS ==> 10368s, soit 2.88h ------------------------------- LEGENDE ------------------------------- tEse : temps "Elapsed" consomme en secondes. (Temps facture = tEse*#T) tCpu : temps CPU consomme en secondes, pour information. #T : nombre de coeurs reserves. (%) : taux d'efficacite du travail ==> tCpu*100/(tEse*#T). S : C (completed) ==> travail termine normalement. R (removed) ==> travail detruit en cours d'execution a l'aide de la commande "llcancel" par exemple.