Automatiser avec Snakemake 🐍 ⚙

4. Automatiser avec Snakemake 🐍 ⚙#

4.1. Introduction#

Précédemment, vous avez automatisé votre analyse RNA-seq en utilisant plusieurs scripts Bash que vous avez soumis au gestionnaire du cluster, Slurm.

D’abord script_cluster_1.sh pour indexer le génome de référence, puis script_cluster_2.sh pour contrôler la qualité, aligner et quantifier les reads et enfin, script_cluster_3.sh pour normaliser les comptages de tous les échantillons.

Lancer ces trois scripts les uns après les autres est fastidieux. On peut automatiser cela plus encore avec un gestionnaire de workflow comme Snakemake. Un gestionnaire de workflow va s’occuper de lancer les différentes étapes du workflow d’analyse dans le bon ordre et de gérer les dépendances entre ces étapes.

4.2. Mise en oeuvre#

Depuis un terminal de JupyterLab, vérifiez que vous êtes toujours dans le répertoire /shared/projects/2501_duo/$USER/rnaseq.

Supprimez les répertoires qui contiennent les résultats d’une éventuelle précédente analyse :

$ rm -rf genome_index reads_qc reads_map counts slurm*.out

Téléchargez le fichier (snakemake.zip) avec la commande wget :

$ wget https://raw.githubusercontent.com/pierrepo/unix-tutorial/master/content/tuto3/snakemake.zip

Désarchivez cette archive :

unzip snakemake.zip

Deux nouveaux fichiers vont être créés ainsi qu’un répertoire :

run_snakemake.sh : script Bash pour lancer Snakemake via Slurm.
Snakefile : fichier de configuration de Snakemake qui contient la définition des différentes étapes de l’analyse.
snakemake_profiles/cluster/config.yaml : fichiers de configuration de Snakemake

Avec l’éditeur de fichier de JupyterLab, ouvrez les fichiers run_snakemake.sh et Snakefile. Le fichier run_snakemake.sh est relativement court. Le fichier Snakefile est plus complexe, mais vous devriez y retrouver les différentes étapes de l’analyse. Pour chaque étape d’analyse, on définit en input les fichiers nécessaire pour cette étape et en output les fichiers qui seront produits. Notez que le fichier Snakefile est paramétré pour n’analyser que 3 échantillons. Vous pourrez aisément le modifier pour analyser les 50 échantillons.

Lancez l’analyse avec Snakemake :

$ sbatch -A 2501_duo run_snakemake.sh

La commande sacct ne sera ici pas très utile, car tous les jobs seront lancés indépendamment les uns des autres (donc avec des numéros de jobs différents).

La commande squeue avec quelques options d’affichage sera plus pertinente pour suivre la progression du calcul :

$ squeue --format="%.10i %.10j %.40k %.8T %.8M %.9P %.10u %R" -u $USER

N’hésitez pas à préfixer cette commande par watch -x pour afficher automatiquement l’avancement du calcul.

Hint

Utilisez la combinaison de touches Ctrl + C pour arrêter la commande watch.

4.3. Pour aller plus loin#

Si vous souhaitez découvrir Snakemake, voici deux vidéos d’introduction à Snakemake :

Reproducible data analysis with Snakemake, 2019, (YouTube, 2’). Très courte vidéo d’introduction à Snakemake.
Reproducible data analysis with Snakemake, 2019, (YouTube, 1h22’). Tutoriel pour une analyse RNA-Seq, par Johannes Köster, le créateur de Snakemake.