Caroline Patenaude
Bibliothèque des lettres et sciences humaines
2021-11-07
Objectifs
Reproductibilité de la recherche
RStudio
RMarkdown
Standard Charts and Tables: Original Data 1919 - The Review of Economics and Statistics
“Our basic goal is reproductible research. The electronic document is our means to this end”.
“reproducibility of experiments in seismic exploration requires having the complete software environment available in other laboratories and the full source code available for inspection, modification, and application under varied parameter settings.”
“Political science is a community enterprise; the community of empirical political scientists needs access to the body of data necessary to replicate existing studies to understand, evaluate, and especially build on this work. Unfortunately, the norms we have in place now do not encourage, or in some cases even permit, this aim.”
En résumé (Barba, 2018):
Reproducible: Authors provide all the necessary data and the computer codes to run the analysis again, re-creating the results.
Bref, une recherche est reproductible si tout le matériel (documentation, analyses, données, code) est rendu disponible de façon à ce qu’un chercheur indépendant soit en mesure de reproduire les résultats originaux.
Replication: A study that arrives at the same scientific findings as another study, collecting new data (possibly with different methods) and completing new analyses.
“The replication of important findings by multiple independent investigators is fundamental to the accumulation of scientific evidence. Researchers in the biologic and physical sciences expect results to be replicated by independent data, analytical methods, laboratories, and instruments.”
Voir The Turing Way
MAIS, toutes les recherches ne sont pas “réplicables”, elles devraient donc être, au minimum, reproductibles.
“An attainable minimum standard is “reproducibility,” which calls for data sets and software to be made available for verifying published findings and conducting alternative analyses."
Certains vont plus loin en distinguant différents types de reproductibilité: empirique, méthodologique, statistique, informatique, … Stodden, 2018
Mais dans la littérature, le terme replication est souvent utilisé de façon “générique” (replication projects, studies, networks…).
Nombreux débats depuis des décennies sur la reconnaissance de la “subjectivité”, la spécificité épistémologique des sciences humaines, le dualisme méthodologique entre recherche qualitative et quantitative, …
La “rigueur scientifique” ne peut reposer que sur le seul critère de reproductibilité puisqu’on ne peut de reproduire les conditions exactes d’une recherche qualitative.
“Si vous me laissez mener une analyse qualitative exactement comme je l’entends, je ne vais pas du tout me pencher sur le pourcentage de telle ou telle réponse, car cela ne m’intéresse pas. […] Ne me demandez pas ensuite si cela est reproductible. Ça ne l’est pas et ce n’est d’ailleurs pas du tout le but. Je ne mène pas des enquêtes pour qu’elles soient établies comme vérité après que deux ou trois autres enquêtes auront reproduit la mienne et seront arrivées aux mêmes résultats.” (Paillé, 2019 )
NB! La reproductibilité des résultats n’est pas synonyme de validité, mais de transparence. Les “mauvaises analyses” peuvent aussi être reproductibles!
“an article about computational result is advertising, not scholarship. The actual scholarship is the full software environment, code and data, that produced the result.” Claerbout cité par in Buckheit and Donoho, 1995
Principe à la base de la reproductibilité est que l’unité traditionnelle de la diffusion scientifique, ie l’article publié, n’est que la pointe de l’iceberg du processus de recherche.
“[…¸] openness alone does not guarantee reproducibility or reusability, so it should not be pursued as a goal in itself. Focusing on data is also not enough: it needs to be accompanied by software, workflows and explanations, all of which need to be captured throughout the usual iterative and closed research lifecycle, ready for a timely open release with the results.”
– Pas capable de l’ouvrir!
– Comprend rien!
– Marche pas!
Les causes sont nombreuses et ne sont pas nécessairement liées à une intention de fraude scientifique. Entre autres:
Non disponibilité des données, documentation, codes… (mentionnons l’usage accrue de données protégées).
Défaut de maitriser pleinement certaines méthodes et outils > Complexité croissante des modèles d’analyses, des outils, des bases de données.
Pression accrue sur les chercheurs (publish or perish) peut encourager certaines conduites “hasardeuses” qui mettent en péril l’intégrité scientifique.