Reproductibilité de la recherche:
enjeux et bonnes pratiques

Caroline Patenaude
Bibliothèque des lettres et sciences humaines

2021-11-07

Reproductibilité de la recherche:
enjeux et bonnes pratiques

Objectifs


Reproductibilité de la recherche


RStudio


RMarkdown

La “crise” de la reproductibilité

La “crise” de la reproductibilité

Ioannidis, 2005

La “crise” de la reproductibilité

La “crise” de la reproductibilité

Un peu de recul…



Standard Charts and Tables: Original Data 1919 - The Review of Economics and Statistics


“Our basic goal is reproductible research. The electronic document is our means to this end”.

“reproducibility of experiments in seismic exploration requires having the complete software environment available in other laboratories and the full source code available for inspection, modification, and application under varied parameter settings.”


“Political science is a community enterprise; the community of empirical political scientists needs access to the body of data necessary to replicate existing studies to understand, evaluate, and especially build on this work. Unfortunately, the norms we have in place now do not encourage, or in some cases even permit, this aim.”

Débordement dans la “culture populaire”

De débats disciplinaires à “crise de confiance”…


Débordement dans la “culture populaire”

Constat #1 : Confusion dans les termes

Reproductibilité? Réplicabilité? Répétabilité? De quoi parle-t-on?



En résumé (Barba, 2018):

Reproducible: Authors provide all the necessary data and the computer codes to run the analysis again, re-creating the results.


Bref, une recherche est reproductible si tout le matériel (documentation, analyses, données, code) est rendu disponible de façon à ce qu’un chercheur indépendant soit en mesure de reproduire les résultats originaux.


Replication: A study that arrives at the same scientific findings as another study, collecting new data (possibly with different methods) and completing new analyses.


“The replication of important findings by multiple independent investigators is fundamental to the accumulation of scientific evidence. Researchers in the biologic and physical sciences expect results to be replicated by independent data, analytical methods, laboratories, and instruments.”

Voir The Turing Way

Constat #1 : Confusion dans les termes

La reproductibilité comme continuum


MAIS, toutes les recherches ne sont pas “réplicables”, elles devraient donc être, au minimum, reproductibles.

“An attainable minimum standard is “reproducibility,” which calls for data sets and software to be made available for verifying published findings and conducting alternative analyses."

Reproducible Research in Computational Science, Peng, 2011


Certains vont plus loin en distinguant différents types de reproductibilité: empirique, méthodologique, statistique, informatique, … Stodden, 2018


Mais dans la littérature, le terme replication est souvent utilisé de façon “générique” (replication projects, studies, networks…).


Constat #1 : Confusion dans les termes

Et le qualitatif ?



“Si vous me laissez mener une analyse qualitative exactement comme je l’entends, je ne vais pas du tout me pencher sur le pourcentage de telle ou telle réponse, car cela ne m’intéresse pas. […] Ne me demandez pas ensuite si cela est reproductible. Ça ne l’est pas et ce n’est d’ailleurs pas du tout le but. Je ne mène pas des enquêtes pour qu’elles soient établies comme vérité après que deux ou trois autres enquêtes auront reproduit la mienne et seront arrivées aux mêmes résultats.” (Paillé, 2019 )


NB! La reproductibilité des résultats n’est pas synonyme de validité, mais de transparence. Les “mauvaises analyses” peuvent aussi être reproductibles!

Constat #2 : l’article ne suffit plus

“an article about computational result is advertising, not scholarship. The actual scholarship is the full software environment, code and data, that produced the result.” Claerbout cité par in Buckheit and Donoho, 1995

Principe à la base de la reproductibilité est que l’unité traditionnelle de la diffusion scientifique, ie l’article publié, n’est que la pointe de l’iceberg du processus de recherche.

The Scientific Paper Is Obsolete. Here’s what’s next

Constat #3 : les données ne suffisent plus non plus


“Open is not enough”

“[…¸] openness alone does not guarantee reproducibility or reusability, so it should not be pursued as a goal in itself. Focusing on data is also not enough: it needs to be accompanied by software, workflows and explanations, all of which need to be captured throughout the usual iterative and closed research lifecycle, ready for a timely open release with the results.”


Le partage de jeux de données est nécessaire à la reproductibilité, mais n’en est pas garant:

Pas capable de l’ouvrir!

Comprend rien!

Marche pas!

Les causes de l’irreproductibilité

Les causes sont nombreuses et ne sont pas nécessairement liées à une intention de fraude scientifique. Entre autres:

Les causes de l’irreproductibilité

Les solutions


Initiatives diverses pour changer la culture et le marché de la recherche et de la publication scientifiques: The Slow Science Manifesto


Les solutions

Les solutions

INIS - Cycle de vie des données

Les bénéfices de la reproductibilité

Quelques bonnes pratiques


De quoi aurait besoin un collègue qui voudrait reproduire mes résultats sans mon aide?


Quelques bonnes pratiques


5 volets essentiels à considérer:

  1. Planification
  2. Organisation
  3. Documentation
  4. Automatisation
  5. Diffusion

Bonne pratique #1: Planifier!

Bonne pratique #2: Organiser!



Faut penser dès le départ à un système pour gérer ses fichiers.


Les fichiers vont s’accumuler, évoluer avec le temps tout comme les relations entre eux.


Il faut donc s’armer contre le chaos!


Bonne pratique #2: Organiser!

2.1 Créer un dossier Projet contenant tous les fichiers

Bonne pratique #2: Organiser!

2.2 Règles de nommage de fichiers

Conseils de base :

Bonne pratique #2: Organiser!

2.2 Règles de nommage de fichiers

Bonne pratique #2: Organiser!

2.3 Contrôle des versions

Définir des procédures de gestion de versions de l’ensemble de ses fichiers

  1. Le problème peut se gérer grâce aux règles de nommage.
  2. Mais pour un contrôle plus serré de projet plus volumineux, utiliser un outil de versionnage comme Git (dropbox et Google Drive offre un contrôle de versions minimal).

Voir Happy Git and GitHub for the useR

Bonne pratique #3: Documenter/commenter!

Tout, tout, tout documenter

*La plupart des logiciels ont un grand nombre de dépendances qui peuvent entrainer des conflits si l’installation n’est pas identique. Dans R il est essentiel d’inclure son sessionInfo() mais ne signale pas toutes les dépendances système de plus haut niveau. Il existe des outils plus sophistiqués pour les identifier (gestionnaires de paquets comme Packrat pour R, outils de “conteneurs logiciels” comme Docker…)

Bonne pratique #3: Documenter/commenter!

Voir Open and Reproducible Science with R

Bonne pratique #4: Automatiser!

Bonne pratique #4: Automatiser!

Chemin absolu vs relatif

Bonne pratique #4: Automatiser!

Problems with using Microsoft Excel for Statistical Analysis & Graphics

Bonne pratique #4: Automatiser++!

Adopter la méthode du litterate programming (programmation lettrée)

Treat program as literature to be understandable to human beings

Document reliant les résultats, le code qui les a générés et les commentaires qui expliquent chacune des étapes : La source et le chargement données, les modifications et analyses effectuées et les résultats obtenus > toute la chaine peut ainsi être reproduite.

Bonne pratique #5: Diffuser!

5.1. Pourquoi « ouvrir » ses données?

– De plus en plus d’éditeurs et d’organismes le suggèrent ou même l’obligent.

– Communauté scientifique le demande de plus en plus.

– Recherche de meilleure qualité avec meilleure visibilité.


Quelques conseils :

DRYAD - FAIR Data

Bonne pratique #5: Diffuser!

5.2. Diffuser des données bien structurées

*Attention car le transfert en format texte peut entrainer des pertes d’information sur les variables. Il est conseillé de créer un dictionnaire de codes pour décrire ses variables (peut être automatisé).

6. Choisir de bons outils

Plusieurs outils de programmation peuvent être utilisés pour améliorer la reproductibilité de ses analyses. L’important est de choisir un language qui permet à la fois d’automatiser ET documenter ses analyses.

Références