Le 15 mars 2021, la Politique des organismes fédéraux canadiens sur la gestion des données de recherche entrait en vigueur [appelée ci-après Politique]. La déclaration de principes avait été publiée en 2016. Le délai d’entérinement trouve vraisemblablement sa raison dans la volonté des bailleurs de fonds de susciter une prise de conscience et une mobilisation à l’intérieur des établissements de recherche, eu égard à leurs nouvelles responsabilités en matière de données.
Les nouvelles obligations
Les nouvelles obligations des chercheur-se-s peuvent être résumées comme suit :
A. Un plan de gestion des données de recherche (PGDR) doit être soumis en complément à la demande de subvention. Il s’agit d’un document formalisé qui décrit :
- La méthode de collecte, de stockage et de formatage des données;
- L’objectif de la collecte;
- La méthode et le lieu de préservation;
- Les dispositions prises pour la diffusion et le partage;
- Les coûts générés par l’entreposage et le partage, le cas échéant;
- Les rôles et responsabilités des membres de l’équipe (dans le cas d’une recherche participative);
- Les éventuelles contraintes éthiques, légales ou commerciales qui empêchent une mise en disposition publique.
B. Les données, les métadonnées et les codes doivent être entreposées dans un dépôt numérique, de préférence disciplinaire.
C. Alors que le partage n’est pas obligatoire, on s’attend à ce qu’on donne « un accès convenable aux données, pour autant que les exigences éthiques, culturelles, juridiques et commerciales le permettent »; le partage doit se faire dans le respect des normes FAIR.
D. Les chercheur-se-s doivent respecter la souveraineté des données autochtones (PCAP).
La mise en pratique
La mise en pratique de ces directives rencontre deux écueils. D’un côté, les solutions technologiques canadiennes adaptées à l’intendance des données sont relativement récentes et peu connues par la communauté de chercheur-se-s. De l’autre côté, la règlementation institutionnelle sous-jacente à la politique tripartite (IRSC, CRSNG, CRSH) n’en est qu’à ses balbutiements : en vertu de la Politique, les établissements de recherche doivent élaborer et soumettre un plan stratégique aux organismes subventionnaires avant 2023. Les premières subventions assujetties aux exigences du plan de gestion des données seront toutefois disponibles avant le printemps 2022.
Le schéma ci-dessous rend compte des principales sections d’un plan normalisé. Malgré une apparente linéarité, il ne s’agit pas d’une suite logique et chronologique :
- Les limites éthiques et légales sont à considérer en amont du processus et se font ressentir de la cueillette jusqu’à la publication;
- La sauvegarde et la préservation des données se recoupent sans se superposer;
- La documentation et les métadonnées sont reliées à la publication, mais elles ne se présentent pas de manière subséquente;
- Les responsabilités des membres de l’équipe sont à déterminer avant même la collecte des données.
Les différentes parties du plan de gestion s’entremêlent donc dans un ensemble dynamique, qui peut d’ailleurs subir des modifications au fil de l’investigation scientifique. Le document remanié donnera lieu à une nouvelle version, et toutes les versions précédentes pourraient être conservées en contiguïté (voir Dataverse) ou bien supprimées au profit de la version la plus récente (voir DFDR/FRDR).
Le plan de gestion des données
L’ampleur du plan de gestion des données variera selon le domaine de connaissances et la nature des données. Un-e chercheur-se qui analyse des données techniques ou des données dérivées rencontrera peu ou pas de contraintes éthiques au moment de la collecte et de la diffusion, ces données n’étant pas/plus nominales. En revanche, la recherche avec des êtres humains est hautement concernée par la conformité des données : le ou la titulaire d’une subvention devra ainsi produire un PGDR, en plus de remplir la déclaration éthique exigée par son établissement d’attache.
On ne saurait rédiger un plan compatible avec les normes FAIR (Findable – Accessible – Interoperable – Reusable) (Wilkinson, 2016) sans une expertise en curation des données. La curation se définit comme la gestion active des données, tout au long de leur cycle de vie, avec l’objectif d’assurer l’intégrité logique et physique des données, d’augmenter leur visibilité et d’encourager leur réutilisation. Cela sous-tend :
- Le tri (toutes les données initiales ne se qualifient pas nécessairement pour une préservation à long terme);
- La transformation, le nettoyage et le formatage des données;
- La documentation afférente (ex. dictionnaire de données) et les métadonnées (propres au sujet et à l’archivage);
- Le stockage et l’entreposage, le consentement et la licence de diffusion;
- Enfin, l’attribution des identifiants pérennes (DOI, Handle, ORCID, etc.).
Somme toute rapide, cette description illustre la complexité de la gestion des données et l’impératif d’une responsabilité partagée à travers les institutions de recherche.
Elle soulève aussi des interrogations d’ordre technique…
- Quelles solutions favoriser pour le stockage des données sensibles?
- Comment encrypter des fichiers et faire les tests d’intégrité?
- Quels sont les formats les plus recommandés et comment faire la conversion?
…et d’ordre légal :
- Quelles sont les méthodes d’anonymisation et de dé-identification des données?
- Qui accompagne les chercheurs lorsqu’une juridiction étrangère s’immisce dans le projet de recherche?
Le sondage sur les pratiques GDR mené par l’Association des bibliothèques de recherche au Canada entre 2016 et 2019 révèle que plus de 85 % des répondants auraient besoin du support ou préféreraient avoir du support pour la rédaction d’un plan de gestion. La majorité opte pour des ateliers de formation ou de l’aide personnalisée. Seulement 13 % des participants au sondage envisagent de partager (diffuser) les données; 46 % se déclarent prêts à le faire sur demande, alors que 30 % envisagent un accès en ligne restreint.
Le partage des données
Le partage (souvent identifié à la publication, alors que les deux termes ne sont pas interchangeables) connaît par ailleurs une modulation disciplinaire :
- En science et génie, par exemple, les éditeurs exigent que l’article soit publié avant que les données correspondantes soient diffusées;
- Les arts et les humanités accusent peu de restrictions ou d’embargos dans la diffusion des données;
- Les sciences de la santé, la médecine et les sciences sociales évoquent souvent des limitations éthiques et des enjeux de confidentialité.
Les inégalités disciplinaires se conjuguent à un manque de coordination et d’harmonisation des pratiques des comités d’accès aux données à travers le monde (Saulnier et coll., 2019).
Dans une perspective juridique, les données de recherche sont exposées à une double vulnérabilité : la propriété des données et la protection des renseignements personnels. Si les chercheur-se-s bénéficient des droits d’auteur sur leurs publications, ils ne détiennent pas la titularité des données qui ont étayé le texte. La loi canadienne du droit d’auteur ne protège pas les données brutes ou factuelles, mais seulement les compilations faisant preuve d’originalité et du jugement. Les entrepôts des données tels Dataverse ou DFDR attribuent d’ailleurs par défaut une licence CC0 aux jeux de données, ce qui indique que ceux-ci relèvent du domaine public. Les créateurs ont toutefois la possibilité d’attribuer à leur données une licence restrictive de type CC-BY. Il est alors pertinent de s’interroger sur la pertinence ou l’utilité légale d’une telle alternative. Vu la confusion, les accès contractuels (Data Access Agreement) et la diffusion des données agrégées (bases de données) restent le seul levier de contrôle valide aux termes de la loi. Quant à la protection des renseignements personnels, l’obligation de chaque organisme européen d’avoir un agent à la protection des données (Data Protection Officer), normalisée en UE depuis 20161, laisse entrevoir la délicatesse du sujet et fournit une source d’inspiration aux acteurs canadiens responsables de la gouvernance des données.
La Politique renferme une autre tension, celle entre le droit des données et le savoir ouvert. Alors que le partage n’est pas une exigence sine qua non, les données issues d’un financement public devraient ultimement être librement accessibles et réutilisables. Car cette politique s’inscrit dans un filon normatif axé sur l’ouverture des résultats de la recherche, l’efficacité et la transparence du gouvernement2.
Force est de constater que la gestion des données de recherche implique une panoplie de savoir-faire d’ordre technique, légal et scientifique. Il est difficile d’entrevoir une gouvernance stratégique sans une distribution raisonnable des rôles et une coordination fluide des acteurs concernés (par ex., soutien technique, archives, bibliothèques, décanats de la recherche) et sans une harmonisation des pratiques juridico-administratives entre les différentes entités nationales de recherche.
- 1Le Règlement général sur la protection des données (RGPD) a été adopté par le Parlement européen en 2016 et entré en vigueur en mai 2018 : https://www.cnil.fr/fr/reglement-europeen-protection-donnees.
- 2Citons, entre autres, la Feuille de route pour la science ouverte lancée par le gouvernement canadien en février 2020 et le Plan d’action national du Canada pour un gouvernement ouvert de 2018-2020.
- Emanuela Chiriac
Université du Québec en Outaouais
Détentrice d'un master en histoire de l'École des Hautes Études en Sciences Sociales (Paris) et d'un master en bibliothéconomie et sciences de l'information de l'Université de Montréal, Emanuela Chiriac travaille comme bibliothécaire à l'Université du Québec en Outaouais depuis 2009. Elle a publié dans la revue Documentation et bibliothèques, ainsi que sur le blogue professionnel Tribune Compétences Informationnelles.
Vous aimez cet article?
Soutenez l’importance de la recherche en devenant membre de l’Acfas.
Devenir membre