~~NOTOC~~ ====== Organisation des files d'attente====== ===== Cluster Lumière ===== **Nœud de soumission** : mesologin1.univ-fcomte.fr ou mesologin2.univ-fcomte.fr ^Nom ^Limite de temps ^ Nombre de slots ^ Limite slots/user ^Limite mémoire/coeur ^ Type d'application^ |all.q |8j|892 | 92 |-|Mémoire partagée : OpenMP, tableaux de tâches, séquentielles| |parallel.q | 8j|1088 |128|4G/coeur| Mémoire distribuée : MPI spécifique| |tesla.q | 8j| 8 slots, 4 GPU | -|-| calculs GPGPU| |volta.q | 8j| 2 noeuds, 8 GPU | -|-| IA et Deep Learning| |xphi.q | 3j| 12 slots, 4 cartes | - |-| calculs parallèle spécifique| |bigmem.q|8j|8 slots, 96G|-| -|Séquentiel, OpenMP| On peut afficher les files d'attente avec la commande : ''qconf -sql '' ou ''qstat -g c'' ====== Configuration SGE====== Un système de ''quotas'' et de partage équitable (''fairshare'') est utilisé pour s'assurer que les ressources (CPU, MEM) soient accessibles à tous les utilisateurs dans les meilleurs délais. ====== Les quotas ====== * Il existe des quotas (slots et h_vmem) par utilisateur qui garantissent qu'un utilisateur n'utilise plus de 20% de la file d'attente utilisée. * La mémoire (h_vmem) rentre de le calcul des quotas (4G/coeur). * Aucun quota par laboratoire ou équipe n'est en place pour le moment Exemple : pour un quota de **48 slots** sur la file **all.q**, la valeur maximale de **h_vmem** est 4x48 = **192G**. - important ces quotas sont régulièrement ajustés en fonction de la charge du cluster - On peut afficher les quotas SGE des utilisateurs connectés avec la commande ''qquotatAll'' ====== Le partage équitable ("fairshare") ====== Le ''fairshare'' est un mécanisme surveillant l'usage des ressources dans le temps, de manière à permettre aux utilisateurs occasionnels de passer plus facilement par rapport à de gros consommateurs en ressource. **Pour ce faire, les priorités de chaque job en attente sur le cluster sont ajustées à la volée, ce qui peut se traduire par deux priorités différentes pour des jobs par ailleurs identiques.** ====== Utilisation mémoire ====== La mémoire et les slots sont des ressources consommables, allouées à un job une fois lancé : Pour une meilleure utilisation des machines, nous invitons donc les utilisateurs à bien estimer la mémoire. Un ensemble d'outils ont été mis en place pour vous aider à connaître la mémoire réellement utilisée par vos calculs. Durant l'exécution, vous pouvez visualiser la mémoire réellement consommée par vos applications : * en ligne de commandes : qmemview -j * sur le portail : [[https://mesoportail.univ-fcomte.fr]] A la fin de l'exécution: qacct -j Des alertes par email vous seront envoyées en fin de job en cas de sous utilisation de la mémoire demandée.