Organisation des files d'attente

Nœud de soumission : mesologin1.univ-fcomte.fr ou mesologin2.univ-fcomte.fr

Nom Limite de temps Nombre de slots Limite slots/user Limite mémoire/coeur Type d'application
all.q 8j892 92 -Mémoire partagée : OpenMP, tableaux de tâches, séquentielles
parallel.q 8j1088 1284G/coeur Mémoire distribuée : MPI spécifique
tesla.q 8j 8 slots, 4 GPU -- calculs GPGPU
volta.q 8j 2 noeuds, 8 GPU -- IA et Deep Learning
xphi.q 3j 12 slots, 4 cartes - - calculs parallèle spécifique
bigmem.q8j8 slots, 96G- -Séquentiel, OpenMP

On peut afficher les files d'attente avec la commande : qconf -sql ou qstat -g c

Configuration SGE

Un système de quotas et de partage équitable (fairshare) est utilisé pour s'assurer que les ressources (CPU, MEM) soient accessibles à tous les utilisateurs dans les meilleurs délais.

Les quotas

  • Il existe des quotas (slots et h_vmem) par utilisateur qui garantissent qu'un utilisateur n'utilise plus de 20% de la file d'attente utilisée.
  • La mémoire (h_vmem) rentre de le calcul des quotas (4G/coeur).
  • Aucun quota par laboratoire ou équipe n'est en place pour le moment

Exemple : pour un quota de 48 slots sur la file all.q, la valeur maximale de h_vmem est 4x48 = 192G.

  1. important ces quotas sont régulièrement ajustés en fonction de la charge du cluster
  2. On peut afficher les quotas SGE des utilisateurs connectés avec la commande qquotatAll

Le partage équitable ("fairshare")

Le fairshare est un mécanisme surveillant l'usage des ressources dans le temps, de manière à permettre aux utilisateurs occasionnels de passer plus facilement par rapport à de gros consommateurs en ressource. Pour ce faire, les priorités de chaque job en attente sur le cluster sont ajustées à la volée, ce qui peut se traduire par deux priorités différentes pour des jobs par ailleurs identiques.

Utilisation mémoire

La mémoire et les slots sont des ressources consommables, allouées à un job une fois lancé : Pour une meilleure utilisation des machines, nous invitons donc les utilisateurs à bien estimer la mémoire.

Un ensemble d'outils ont été mis en place pour vous aider à connaître la mémoire réellement utilisée par vos calculs.

Durant l'exécution, vous pouvez visualiser la mémoire réellement consommée par vos applications :

  • en ligne de commandes :
qmemview -j <jobid>

A la fin de l'exécution:

qacct -j <jobid>

Des alertes par email vous seront envoyées en fin de job en cas de sous utilisation de la mémoire demandée.