~~NOTOC~~
====== Organisation des files d'attente======
===== Cluster Lumière =====
**Nœud de soumission** : mesologin1.univ-fcomte.fr ou mesologin2.univ-fcomte.fr
^Nom ^Limite de temps ^ Nombre de slots ^ Limite slots/user ^Limite mémoire/coeur ^ Type d'application^
|all.q |8j|892 | 92 |-|Mémoire partagée : OpenMP, tableaux de tâches, séquentielles|
|parallel.q | 8j|1088 |128|4G/coeur| Mémoire distribuée : MPI spécifique|
|tesla.q | 8j| 8 slots, 4 GPU | -|-| calculs GPGPU|
|volta.q | 8j| 2 noeuds, 8 GPU | -|-| IA et Deep Learning|
|xphi.q | 3j| 12 slots, 4 cartes | - |-| calculs parallèle spécifique|
|bigmem.q|8j|8 slots, 96G|-| -|Séquentiel, OpenMP|
On peut afficher les files d'attente avec la commande : ''qconf -sql '' ou ''qstat -g c''
====== Configuration SGE======
Un système de ''quotas'' et de partage équitable (''fairshare'') est utilisé pour s'assurer que les ressources (CPU, MEM) soient accessibles à tous les utilisateurs dans les meilleurs délais.
====== Les quotas ======
* Il existe des quotas (slots et h_vmem) par utilisateur qui garantissent qu'un utilisateur n'utilise plus de 20% de la file d'attente utilisée.
* La mémoire (h_vmem) rentre de le calcul des quotas (4G/coeur).
* Aucun quota par laboratoire ou équipe n'est en place pour le moment
Exemple : pour un quota de **48 slots** sur la file **all.q**, la valeur maximale de **h_vmem** est 4x48 = **192G**.
- important ces quotas sont régulièrement ajustés en fonction de la charge du cluster
- On peut afficher les quotas SGE des utilisateurs connectés avec la commande ''qquotatAll''
====== Le partage équitable ("fairshare") ======
Le ''fairshare'' est un mécanisme surveillant l'usage des ressources dans le temps, de manière à permettre aux utilisateurs occasionnels de passer plus facilement par rapport à de gros consommateurs en ressource. **Pour ce faire, les priorités de chaque job en attente sur le cluster sont ajustées à la volée, ce qui peut se traduire par deux priorités différentes pour des jobs par ailleurs identiques.**
====== Utilisation mémoire ======
La mémoire et les slots sont des ressources consommables, allouées à un job une fois lancé : Pour une meilleure utilisation des machines, nous invitons donc les utilisateurs à bien estimer la mémoire.
Un ensemble d'outils ont été mis en place pour vous aider à connaître la mémoire réellement utilisée par vos calculs.
Durant l'exécution, vous pouvez visualiser la mémoire réellement consommée par vos applications :
* en ligne de commandes :
qmemview -j
* sur le portail : [[https://mesoportail.univ-fcomte.fr]]
A la fin de l'exécution:
qacct -j
Des alertes par email vous seront envoyées en fin de job en cas de sous utilisation de la mémoire demandée.