Pour des données bien ordonnées
Trucs pratiques et partage d’expériences

Caroline & David (Patenaude)
Bibliothèque des lettres et sciences humaines

2022-05-28

Plan

Première partie: de l’importance des données bien ordonnées

  1. Données de recherche -> de quoi parle-t-on?
  2. Gestion des données et cycle de vie de la recherche
  3. Pourquoi la GDR? Avantages
  4. Prioriser ses activités de GDR

Deuxième partie: quelques bonnes pratiques

  1. Planifier
  2. Organiser
  3. Documenter
  4. Diffuser

Troisième partie: discussion

1. Données de recherche -> de quoi parle-t-on?


Multitude de définitions - grande variation selon les disciplines en fonction de leurs objets de recherche

“les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche”. - Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics


Bref, matériaux de base de la recherche:

2. Gestion des données et cycle de vie de la recherche

3. Pourquoi la GDR?

Avantages

7. Prioriser activités de GDR


Nombreux facteurs à considérer:


Nature des données:


Nature du projet:

Deuxième partie: quelques bonnes pratiques

Il faut tout au long de sa recherche gérer ses données en se posant la question :

Est-ce qu’un collègue serait capable de reproduire mes résultats sans mon aide?


4 volets essentiels à considérer:

  1. Planifier
  2. Organiser
  3. Documenter
  4. Diffuser

2.1. Bonne pratique #1: Planifier!

Quels types de données allez-vous recueillir, créer, acquérir? Dans quels formats de fichier vos données seront-elles recueillies? Comment vos données seront-elles sauvegardées pendant votre recherche? Qui est responsable de quoi?

Tout commence avec un Plan de gestion de données de recherche:



2.2. Bonne pratique #2: Organiser!

S’armer contre le chaos!



2.2.1. Structure de dossiers

2.2.2. Noms de fichiers

2.2.3. Contrôle des versions

2.2.4. Formats de fichiers

2.2.5. Structure des données

2.2.6. Stockage/préservation











2.2. Bonne pratique #2: Organiser!

2.2.1. Structure de dossiers

2.2. Bonne pratique #2: Organiser!

2.2.2. Noms de fichiers


2.2. Bonne pratique #2: Organiser!

2.2.2. Noms de fichiers


Établir des règles de nommage -> quelques conseils:




2.2. Bonne pratique #2: Organiser!

2.2.3. Contrôle des versions


Définir des procédures de gestion de versions -> quelques conseils:

  1. De bonnes règles de nommage peuvent suffire:
    • Inclure numéro de versions dans convention de nommage (v01, utiliser décimale pour changements mineurs v01.1).
    • Créer un document où l’on documente la création de nouvelles versions et leur contenu (date, auteur, résumé des changements).
    • Travail d’équipe: documenter une entente relative à la création de nouvelles versions (quels changements nécessitent la création d’une nouvelle version).

  2. Outils de contrôle de versions pour garder une trace et un historique des anciennes versions de ses fichiers
    • Dropbox et Google Drive offrent un contrôle minimal de versions (OneDrive).
    • Pour un contrôle plus serré de projets plus volumineux, utiliser un outil de versionnage comme Git*.





2.2. Bonne pratique #2: Organiser!

2.2.4. Formats de fichiers



Règle générale pour la préservation et la diffusion:


N.B. Toujours vérifier la présence d’erreurs ou de pertes d’information suite à une conversion de formats ou une compression de fichiers.


2.2. Bonne pratique #2: Organiser!

2.2.5. Structure des données



2.2. Bonne pratique #2: Organiser!

2.2.6. Stockage/préservation


Se prémunir contre les désastres (perte de données, corruption de fichiers, formats obsolètes) pendant sa recherche (stockage) et après (préservation).


Deux principales causes:
1. Humaine : suppressions accidentelles, réécriture, copier/coller…
2. Infrastructure : virus, bugs divers d’applications/systèmes/disques…


Quelques questions à se poser:
- Backup de quoi? Qu’est-ce qu’on garde? Déterminer ce que l’on fait de ses anciens fichiers (supprimer? archiver?)
- Où?
- Quand? Dépend de la fréquence des changements (une fois par semaine? par mois?)
- Qui et comment? (si équipe)
- Pendant combien de temps?
- Obligation de destruction/conservation? Définir une politique de conservation


2.2. Bonne pratique #2: Organiser!

2.2.6. Stockage/préservation


Chaque option a ses avantages et désavantages: accèssibilité, sécurité, espace, obsolescence, perennité


Conseils:
- Compresser son projet complet avec date suite à des changements majeurs ou à intervalle régulier.
- Recopier périodiquement ses dossiers de préservation sur de nouveaux mediums (2-5 ans).
- Outils (TeraCopy, md5summer) pour vérifier l’intégrité des fichiers suite à un transfert(checksums).

2.2. Bonne pratique #2: Organiser!

2.2.6. Stockage/préservation

Encryption -> Chiffrement: Fichiers rendus illibles par l’utilisation d’algorithmes qui codent les données afin de les protéger grâce à un mot de passe. Sans le mot de passe, personne ne peut accéder au contenu.


Différentes stratégies possibles: encrypter son disque complet, certains fichiers, dossiers.

Différents outils disponibles:
- Certaines clés USB ont d’emblée un mécanisme d’encryption intégré.
- L’encryption peut aussi se faire par le biais d’un outil de compression (7-zip).
- Certains logiciels comme SPSS, Office (Word, Excel,…) offrent une option de chiffrement à l’enregistrement du fichier.
- De nombreux logiciels sont disponibles comme BitLocker (Windows), FileVault (Mac).
- Créer des dossiers encryptés: VeraCrypt, Cryptomator.

2.3. Bonne pratique #3: Documenter!

Documentation + métadonnées (“données sur les données”)



2.3. Bonne pratique #3: Documenter!

2.3.1. Les fichiers README


N.B. Pour les données secondaires, inclure toute l’information nécessaire sur la source des données primaires pour en assurer la traçabilité (provenance)

2.3. Bonne pratique #3: Documenter!

2.3.2. Les Dictionnaires de codes / Codebooks







2.3. Bonne pratique #3: Documenter!

2.3.3. Les champs de métadonnées

Dataverse UdeM

2.3. Bonne pratique #3: Documenter!

2.3.4. Documenter son code


2.4. Bonne pratique #4: Diffuser!

2.4.1. Pourquoi « ouvrir » ses données?

– De plus en plus d’éditeurs, d’organismes gouvernementaux et de communautés scientifiques le suggèrent ou même l’imposent.

– Recherche de meilleure qualité avec meilleure visibilité (impact).


Où diffuser ses données? Quelques conseils :

2.4. Bonne pratique #4: Diffuser!

2.4.2. Conformité aux lois et à l’éthique: données sensibles

Que dit l’EPTC2?

Donc:

= Nécessité de prévoir le partage des données dès le début du projet!

Merci!

Pour aller plus loin…

Guide GDR Direction des bibliothèques

Services aux chercheurs UdeM - Gestion des données de recherche

Alliance de recherche numérique du Canada - Ressources de formation

Guide to Social Science Data Preparation and Archiving