3. Compter âČ les heures, surveiller 📬 les jobs et rĂ©cupĂ©rer đŸ“„ les rĂ©sultats#

3.1. Compter les heures de calcul consommées#

Expérimentez la commande sreport pour avoir une idée du temps de calcul consommé par tous vos jobs :

$ sreport -t hour Cluster UserUtilizationByAccount Start=2025-01-01 End=$(date --iso-8601)T23:59:59 Users=$USER

La colonne Used indique le nombre d’heures CPU consommĂ©es. Cette valeur est utile pour estimer le « coĂ»t CPU » d’un projet.

Voici un exemple de rapport produit par sreport :

$ sreport -t hour Cluster UserUtilizationByAccount Start=2025-01-01 End=$(date --iso-8601)T23:59:59 Users=$USER
--------------------------------------------------------------------------------
Cluster/User/Account Utilization 2025-01-01T00:00:00 - 2025-05-12T09:59:59 (11350800 secs)
Usage reported in CPU Hours
--------------------------------------------------------------------------------
  Cluster     Login     Proper Name         Account     Used   Energy 
--------- --------- --------------- --------------- -------- -------- 
     core  ppoulain  Pierre Poulain        2501_duo      252        0 
     core  ppoulain  Pierre Poulain      202304_duo       16        0 
     core  ppoulain  Pierre Poulain          gonseq        8        0

Ainsi, l’utilisateur ppoulain a dĂ©jĂ  consommĂ© 252 heures CPU sur le projet 2501_duo.

Warning

sreport ne prend pas en compte les heures immédiatement consommées. Il lui faut quelques minutes pour consolider les données.

Il est également possible de connaßtre la consommation CPU pour un projet en particulier et par utilisateur :

$ sreport -t hour Cluster AccountUtilizationByUser Start=2025-01-01 End=$(date --iso-8601)T23:59:59 Accounts=2501_duo
--------------------------------------------------------------------------------
Cluster/Account/User Utilization 2025-01-01T00:00:00 - 2025-05-12T09:59:59 (11350800 secs)
Usage reported in CPU Hours
--------------------------------------------------------------------------------
  Cluster         Account     Login     Proper Name     Used   Energy 
--------- --------------- --------- --------------- -------- -------- 
     core        2501_duo                               3549        0 
     core        2501_duo  acoudert  Amelie Coudert      245        0 
     core        2501_duo    alebre AnneSophie Leb+       85        0 
     core        2501_duo cdoncarli Caroline Donca+      395        0 
     core        2501_duo cdroilla+ Clement Droill+       88        0 
     core        2501_duo   dlesage    Denis Lesage      158        0 
     core        2501_duo flevavas+ Francoise Leva+      351        0 
     core        2501_duo glelanda+ Gaëlle Leland+      369        0 
     core        2501_duo gruprich+ Gwenael Rupric+      262        0 
     core        2501_duo jcouturi+ Jeanne Couturi+      250        0 
     core        2501_duo   labjean  Laurene Abjean      194        0 
     core        2501_duo    mehmig    Muriel Ehmig      201        0 
     core        2501_duo mnascime+ Megane Nascime+      249        0 
     core        2501_duo  ppoulain  Pierre Poulain      252        0 
     core        2501_duo   rsantos   Renata Santos       82        0 
     core        2501_duo salawabdh  Sana Al Awabdh      179        0 
     core        2501_duo tpetersen  Tania Petersen      190        0

Au 12/05/2025, un total de 3549 heures de calcul a dĂ©jĂ  Ă©tĂ© consommĂ© sur le projet 2501_duo ⏱.

3.2. Surveiller les jobs#

L’analyse RNA-seq prĂ©sentĂ©e ici tourne en 20-25’, c’est relativement rapide, car le gĂ©nome de S. cerevisiae est petit (environ 12 Mb). Les temps d’analyse seront plus longs avec des gĂ©nomes plus gros.

ProcĂ©dez toujours par itĂ©rations successives. Testez votre script d’analyse RNA-seq pour 1 Ă©chantillon, puis 3, puis la totalitĂ©.

Quand vous lancez un job qui sera potentiellement long, n’hĂ©sitez pas Ă  ajouter les directives ci-dessous au dĂ©but de votre script avec les autres instructions #SBATCH :

#SBATCH --mail-type=END,FAIL
#SBATCH --mail-user=votre-adresse-mail@email.fr

Vous recevrez alors automatiquement un e-mail lorsque le job se termine ou si celui-ci plante.

Sur le cluster IFB :

  • Un utilisateur ne peut utiliser plus de 300 cƓurs en mĂȘme temps.

  • Un job dure au maximum 24 h. Une queue plus longue (appelĂ©e long) est disponible pour des jobs qui durent jusqu’à 30 jours et est utilisable via la directive #SBATCH --partition=long en dĂ©but de script. D’autres queues plus spĂ©cifiques (plus de temps, beaucoup de mĂ©moire vive, GPU) sont disponibles sur demande.

Prenez le temps d’explorer la documentation trùs complùte sur le cluster. Vous y trouverez notamment un tutoriel sur une autre analyse RNA-seq.

3.3. Récupérer les résultats#

Pour récupérer vos résultats et les transférer depuis le cluster de calcul vers votre machine locale, il y a 3 possibilités.

3.3.1. Avec l’explorateur de fichiers de JupyterLab#

Si les fichiers que vous souhaitez rĂ©cupĂ©rer sont peu nombreux et peu volumineux (quelques Mo maximum), alors vous pouvez directement utiliser l’explorateur de fichiers de JupyterLab (panneau de gauche). Cliquez-droit sur un fichier puis sĂ©lectionnez Download.

3.3.2. Avec FileZilla#

Rappel

L’utilisation de FileZilla avait dĂ©jĂ  Ă©tĂ© abordĂ©e dans le tutoriel sur les formats et Ă©change de donnĂ©es en biologie

Lancez le logiciel FileZilla. Puis entrez les informations suivantes :

  • HĂŽte : sftp://core.cluster.france-bioinformatique.fr

  • Identifiant : votre login sur le cluster

  • Mot de passe : votre mot de passe sur le cluster

Cliquez ensuite sur le bouton Connexion rapide. Cliquez sur OK dans la fenĂȘtre ClĂ© de l’hĂŽte inconnue

Une fois connecté :

  • Dans le champ texte Ă  cĂŽtĂ© de Site local (Ă  gauche de la fenĂȘtre), choisissez le rĂ©pertoire local (sur votre machine) dans lequel vous souhaitez copier les fichiers.

  • Dans le champ texte Ă  cĂŽtĂ© de Site distant (Ă  droite de la fenĂȘtre), entrez le chemin /shared/projects/2501_duo/LOGIN/rnaseq (avec LOGIN votre identifiant sur le cluster).

Essayez de transfĂ©rer des fichiers dans un sens puis dans l’autre. Double-cliquez sur les fichiers pour lancer les transferts.

3.3.3. Avec scp#

Warning

Uniquement si vous avez un Mac ou un Linux ou une machine sous Windows avec WSL.

Depuis un shell Unix sur une machine locale, déplacez-vous dans un répertoire dans lequel vous souhaitez copier les fichiers.

Lancez ensuite la commande suivante pour récupérer les fichiers de comptage :

$ scp LOGIN@core.cluster.france-bioinformatique.fr:/shared/projects/2501_duo/LOGIN/rnaseq/counts/genes.count_table .

oĂč LOGIN est votre identifiant sur le cluster (qui apparait deux fois dans la ligne de commande ci-dessus). Faites bien attention Ă  garder le . Ă  la fin de la ligne de commande.

Entrez votre mot de passe du cluster en aveugle.

Pour récupérer directement le répertoire counts sur le cluster, vous auriez pu utiliser la commande :

$ scp -r LOGIN@core.cluster.france-bioinformatique.fr:/shared/projects/2501_duo/LOGIN/rnaseq/counts .

Notez l’option -r qui indique qu’on transfĂšre un rĂ©pertoire.