1. Introduction et contexte#
Dans le tutoriel précédent :
Vous avez reproduit la méthodologie publiée dans l’article Investigating Conservation of the Cell-Cycle-Regulated Transcriptional Program in the Fungal Pathogen, Cryptococcus neoformans (Kelliher et al., PLOS Genetics, 2016) pour analyser des données RNA-seq de Saccharomyces cerevisiae.
Vous avez utilisé un script (
script_local_2.sh
) pour accélérer le fonctionnement des logicielsstar
etcuffquant
en utilisant plusieurs processeurs.Enfin vous avez utilisé un autre script (
script_local_3.sh
) pour automatiser l’analyse successive de plusieurs fichiers de données RNA-seq .fastq.gz.
L’objectif de ce tutoriel est d’utiliser toute la puissance d’un cluster de calcul pour analyser simultanément plusieurs jeux de données RNA-seq en ayant à disposition plusieurs milliers de processeurs.
Note
Dans ce tutoriel, les termes « processeur » (ou Central Processing Unit, CPU), « cœur » (core) et « thread » seront equivalents. C’est une approximation. Un processeur est un composant électronique qui est branché sur une carte mère et qui peut contenir plusieurs cœurs qui eux-mêmes peuvent avoir plusieurs threads.
1.1. Prérequis#
Posséder un compte sur le cluster de calcul de l’IFB.
Avoir réalisé le tutoriel Introduction à Unix.
Avoir réalisé le tutoriel Analyse RNA-seq avec Unix.
1.2. Configuration du JupyterLab#
Depuis le portail Open OnDemand de l’IFB, lancez l’application JupyterLab avec les paramètres suivants :
Reservation:
No reservation
Account:
2501_duo
⚠️Partition:
fast
Number of CPUs:
2
⚠️Amount of memory:
2G
⚠️GPUs:
No GPU
Number of hours:
8
⚠️
Warning
La configuration demandée pour cette session est différente de celle demandée la dernière fois. Soyez particulièrement attentif aux paramètres Number of CPUs et Amount of memory.
Vous remarquerez que nous utilisons cette fois apparemment peu de processeurs et de mémoire vive.