1. Introduction et contexte#

Dans le tutoriel précédent :

L’objectif de ce tutoriel est d’utiliser toute la puissance d’un cluster de calcul pour analyser simultanément plusieurs jeux de données RNA-seq en ayant à disposition plusieurs milliers de processeurs.

Note

Dans ce tutoriel, les termes « processeur » (ou Central Processing Unit, CPU), « cœur » (core) et « thread » seront equivalents. C’est une approximation. Un processeur est un composant électronique qui est branché sur une carte mère et qui peut contenir plusieurs cœurs qui eux-mêmes peuvent avoir plusieurs threads.

1.1. Prérequis#

1.2. Configuration du JupyterLab#

Depuis le portail Open OnDemand de l’IFB, lancez l’application JupyterLab avec les paramètres suivants :

  • Reservation: No reservation

  • Account: 2501_duo ⚠️

  • Partition: fast

  • Number of CPUs: 2 ⚠️

  • Amount of memory: 2G ⚠️

  • GPUs: No GPU

  • Number of hours: 8 ⚠️

Warning

La configuration demandée pour cette session est différente de celle demandée la dernière fois. Soyez particulièrement attentif aux paramètres Number of CPUs et Amount of memory.

Vous remarquerez que nous utilisons cette fois apparemment peu de processeurs et de mémoire vive.

1.3. Analyse de données RNA-seq avec un cluster de calcul#

  1. Automatiser l’analyse RNA-seq avec un cluster

  2. Compter les heures de calculs, surveiller les jobs et récupérer les résultats

  3. Automatiser encore plus avec Snakemake