Alors que les capacités de stockage et de calcul s’accroissent de façon exponentielle et que les outils de fouille, d’analyse et de visualisation des collections numériques se multiplient, les propriétés du corpus d’Érudit (erudit.org) offrent des perspectives de recherche exceptionnelle en bibliométrie, en linguistique informatique, en Web sémantique, ainsi qu’en histoire et en sociologie des sciences.
L’exploration automatisée d’un corpus numérique enrichi comme celui d’Érudit, regroupant une quantité croissante d’archives et de numéros courants de revues scientifiques et culturelles, mais aussi de thèses, et de documents et données divers, permet en effet d’extraire, de compiler et d’analyser quantité de données autrement dispersées sur de nombreuses plateformes ou dont l’accès était limité au format papier.
Mais qu’en est-il concrètement de ces nouvelles possibilités de recherche? Il s’agira ainsi de se demander, à partir de l’exemple d’Érudit, quelles questions inédites le traitement automatisé d’un corpus numérique permet de poser et comment ce corpus devrait idéalement évoluer (collections, structuration, sémantisation) afin de répondre aux besoins émergents des chercheurs; d’explorer, en somme, les possibilités de recherche présentes et futures que recèle une plateforme comme Érudit.