3. Compter âČ les heures, surveiller đŹ les jobs et rĂ©cupĂ©rer đ„ les rĂ©sultats#
3.1. Compter les heures de calcul consommées#
Expérimentez la commande sreport
pour avoir une idée du temps de calcul consommé par tous vos jobs :
$ sreport -t hour Cluster UserUtilizationByAccount Start=2025-01-01 End=$(date --iso-8601)T23:59:59 Users=$USER
La colonne Used
indique le nombre dâheures CPU consommĂ©es. Cette valeur est utile pour estimer le « coĂ»t CPU » dâun projet.
Voici un exemple de rapport produit par sreport
:
$ sreport -t hour Cluster UserUtilizationByAccount Start=2025-01-01 End=$(date --iso-8601)T23:59:59 Users=$USER
--------------------------------------------------------------------------------
Cluster/User/Account Utilization 2025-01-01T00:00:00 - 2025-05-12T09:59:59 (11350800 secs)
Usage reported in CPU Hours
--------------------------------------------------------------------------------
Cluster Login Proper Name Account Used Energy
--------- --------- --------------- --------------- -------- --------
core ppoulain Pierre Poulain 2501_duo 252 0
core ppoulain Pierre Poulain 202304_duo 16 0
core ppoulain Pierre Poulain gonseq 8 0
Ainsi, lâutilisateur ppoulain
a déjà consommé 252 heures CPU sur le projet 2501_duo
.
Warning
sreport
ne prend pas en compte les heures immédiatement consommées. Il lui faut quelques minutes pour consolider les données.
Il est également possible de connaßtre la consommation CPU pour un projet en particulier et par utilisateur :
$ sreport -t hour Cluster AccountUtilizationByUser Start=2025-01-01 End=$(date --iso-8601)T23:59:59 Accounts=2501_duo
--------------------------------------------------------------------------------
Cluster/Account/User Utilization 2025-01-01T00:00:00 - 2025-05-12T09:59:59 (11350800 secs)
Usage reported in CPU Hours
--------------------------------------------------------------------------------
Cluster Account Login Proper Name Used Energy
--------- --------------- --------- --------------- -------- --------
core 2501_duo 3549 0
core 2501_duo acoudert Amelie Coudert 245 0
core 2501_duo alebre AnneSophie Leb+ 85 0
core 2501_duo cdoncarli Caroline Donca+ 395 0
core 2501_duo cdroilla+ Clement Droill+ 88 0
core 2501_duo dlesage Denis Lesage 158 0
core 2501_duo flevavas+ Francoise Leva+ 351 0
core 2501_duo glelanda+ Gaëlle Leland+ 369 0
core 2501_duo gruprich+ Gwenael Rupric+ 262 0
core 2501_duo jcouturi+ Jeanne Couturi+ 250 0
core 2501_duo labjean Laurene Abjean 194 0
core 2501_duo mehmig Muriel Ehmig 201 0
core 2501_duo mnascime+ Megane Nascime+ 249 0
core 2501_duo ppoulain Pierre Poulain 252 0
core 2501_duo rsantos Renata Santos 82 0
core 2501_duo salawabdh Sana Al Awabdh 179 0
core 2501_duo tpetersen Tania Petersen 190 0
Au 12/05/2025, un total de 3549 heures de calcul a déjà été consommé sur le projet 2501_duo
â±ïž.
3.2. Surveiller les jobs#
Lâanalyse RNA-seq prĂ©sentĂ©e ici tourne en 20-25â, câest relativement rapide, car le gĂ©nome de S. cerevisiae est petit (environ 12 Mb). Les temps dâanalyse seront plus longs avec des gĂ©nomes plus gros.
ProcĂ©dez toujours par itĂ©rations successives. Testez votre script dâanalyse RNA-seq pour 1 Ă©chantillon, puis 3, puis la totalitĂ©.
Quand vous lancez un job qui sera potentiellement long, nâhĂ©sitez pas Ă ajouter les directives ci-dessous au dĂ©but de votre script avec les autres instructions #SBATCH
:
#SBATCH --mail-type=END,FAIL
#SBATCH --mail-user=votre-adresse-mail@email.fr
Vous recevrez alors automatiquement un e-mail lorsque le job se termine ou si celui-ci plante.
Sur le cluster IFB :
Un utilisateur ne peut utiliser plus de 300 cĆurs en mĂȘme temps.
Un job dure au maximum 24 h. Une queue plus longue (appelée
long
) est disponible pour des jobs qui durent jusquâĂ 30 jours et est utilisable via la directive#SBATCH --partition=long
en dĂ©but de script. Dâautres queues plus spĂ©cifiques (plus de temps, beaucoup de mĂ©moire vive, GPU) sont disponibles sur demande.
Prenez le temps dâexplorer la documentation trĂšs complĂšte sur le cluster. Vous y trouverez notamment un tutoriel sur une autre analyse RNA-seq.
3.3. Récupérer les résultats#
Pour récupérer vos résultats et les transférer depuis le cluster de calcul vers votre machine locale, il y a 3 possibilités.
3.3.1. Avec lâexplorateur de fichiers de JupyterLab#
Si les fichiers que vous souhaitez rĂ©cupĂ©rer sont peu nombreux et peu volumineux (quelques Mo maximum), alors vous pouvez directement utiliser lâexplorateur de fichiers de JupyterLab (panneau de gauche). Cliquez-droit sur un fichier puis sĂ©lectionnez Download.
3.3.2. Avec FileZilla#
Rappel
Lâutilisation de FileZilla avait dĂ©jĂ Ă©tĂ© abordĂ©e dans le tutoriel sur les formats et Ă©change de donnĂ©es en biologie
Lancez le logiciel FileZilla. Puis entrez les informations suivantes :
HĂŽte :
sftp://core.cluster.france-bioinformatique.fr
Identifiant : votre login sur le cluster
Mot de passe : votre mot de passe sur le cluster
Cliquez ensuite sur le bouton Connexion rapide. Cliquez sur OK dans la fenĂȘtre ClĂ© de lâhĂŽte inconnue
Une fois connecté :
Dans le champ texte Ă cĂŽtĂ© de Site local (Ă gauche de la fenĂȘtre), choisissez le rĂ©pertoire local (sur votre machine) dans lequel vous souhaitez copier les fichiers.
Dans le champ texte Ă cĂŽtĂ© de Site distant (Ă droite de la fenĂȘtre), entrez le chemin
/shared/projects/2501_duo/LOGIN/rnaseq
(avecLOGIN
votre identifiant sur le cluster).
Essayez de transfĂ©rer des fichiers dans un sens puis dans lâautre. Double-cliquez sur les fichiers pour lancer les transferts.
3.3.3. Avec scp#
Warning
Uniquement si vous avez un Mac ou un Linux ou une machine sous Windows avec WSL.
Depuis un shell Unix sur une machine locale, déplacez-vous dans un répertoire dans lequel vous souhaitez copier les fichiers.
Lancez ensuite la commande suivante pour récupérer les fichiers de comptage :
$ scp LOGIN@core.cluster.france-bioinformatique.fr:/shared/projects/2501_duo/LOGIN/rnaseq/counts/genes.count_table .
oĂč LOGIN
est votre identifiant sur le cluster (qui apparait deux fois dans la ligne de commande ci-dessus). Faites bien attention Ă garder le .
Ă la fin de la ligne de commande.
Entrez votre mot de passe du cluster en aveugle.
Pour récupérer directement le répertoire counts
sur le cluster, vous auriez pu utiliser la commande :
$ scp -r LOGIN@core.cluster.france-bioinformatique.fr:/shared/projects/2501_duo/LOGIN/rnaseq/counts .
Notez lâoption -r
qui indique quâon transfĂšre un rĂ©pertoire.