Imprimer

11 - Je code, donc je suis (chercheur-euse)

Le mercredi 9 mai 2018

Ce colloque a pour but d’entendre des chercheuses et chercheurs des sciences humaines et sociales nous raconter comment elles et ils ont programmé leurs propres outils informatiques dans le cadre de leurs recherches.

Qu’on parle d’« humanités numériques », de « sciences sociales computationnelles » ou de « méthodes informatiques », il s’agit souvent de la même chose : utiliser des outils informatiques avancés pour recueillir des données de recherche, les traiter ou les visualiser.

Les présentations des différentes chercheuses et chercheurs se feront sur le mode du récit :

– Pourquoi les méthodes numériques-informatiques ont-elles été mobilisées pour leur recherche?

– Quels outils, langages ou systèmes ont été utilisés?

– Comment ces outils ont-ils été appris (dans des cours, ateliers ou en autodidacte)?

– Quelles sont leurs motivations?

– Quels sont les obstacles rencontrés?

Chaque personne devra enfin faire une courte démo à l’écran d’un ou des outils créés, sinon reproduire une des étapes de ses recherches.

Il s’agira enfin de réfléchir aux compétences de base qui devraient être enseignées dans un éventuel cours de méthodologie numérique-informatique aux cycles supérieurs.

Lire la suite »
Remerciements

Les co-organisateurs tiennent à remercier l'ACFAS.

Colloque
Enjeux de la recherche
Responsables
UQAM - Université du Québec à Montréal
UdeS - Université de Sherbrooke
Ajouter à mon horaire
Afficher tous les résumés
Avant-midi
09 h 00 à 12 h 00
Communications orales
Philosophie, histoire et communication
Présidence/Animation : Jean-Hugues Roy (UQAM - Université du Québec à Montréal)
Discutant : François Dominic Laramée (UdeM - Université de Montréal), François CLAVEAU (UdeS - Université de Sherbrooke), Sylvain Rocheleau (UdeS - Université de Sherbrooke)
Batiment : UQAC
Local : P1-7070
09 h 00
L'observatoire de la circulation de l'information
Sylvain Rocheleau (UdeS - Université de Sherbrooke)
09 h 45
La représentation de l'Amérique coloniale dans les périodiques français d'Ancien Régime
François Dominic Laramée (UdeM - Université de Montréal)

Mon corpus, qui couvre la période 1740-1761, compte quelque 75 000 pages de texte imprimé, où les mentions de l'Amérique sont clairsemées mais présentes dans des contextes très variés: articles de nouvelles, comptes-rendus de spectacles, jeux de vocabulaire, extraits d'ouvrages scientifiques, etc. La fouille de texte était donc absolument nécessaire pour extraire le contenu pertinent de cette masse documentaire. Malheureusement, les textes d'Ancien Régime souffrent d'une orthographe irrégulière et d'une «océrisation» déficiente, causée notamment par le mauvais état des documents qui ont été soumis à la reconnaissance optique des caractères. De plus, certaines caractéristiques des périodiques que j'utilise en font ce que j'appelle du Bad Data puisque les prémisses de la théorie du Big Data, notamment le fait que les erreurs se répartissent de manière à peu près régulière et qu'il est tout de même possible d'en extraire un signal, ne s'y appliquent pas: les erreurs ont plutôt tendance à se regrouper dans des secteurs cruciaux du texte, et le coût unitaire d'acquisition des données «corrigées» se révèle passablement élevé. Il m'a donc fallu développer une méthode hybride, mi-numérique, mi-analogique, pour compléter mon projet, méthode qui repose notamment sur un outil que j'ai codé en Python.

Résumé
10 h 30
Cartographier la distribution de la recherche en sciences sociales et humaines depuis les années 1950: c'est possible!
François CLAVEAU (UdeS - Université de Sherbrooke)

Personne aujourd'hui ne peut prétendre connaître la structuration de l'ensemble du champ scientifique par simple immersion dans ce champ, encore moins prétendre pouvoir rendre compte de son évolution depuis les années 1950. C'est ce que les méthodes numériques que j'utilise nous permettent de faire. Je vais présenter le projet en cours sur l'ensemble des sciences sociales et humaines. Le projet terminé sur la science économique a une application web à cette adresse: digitalhistoryofscience.org/economics/ 

Résumé
11 h 15
Linguistique, reproductibilité scientifique et statistiques : Création et utilisation de « R notebooks »
Vincent Arnaud (UQAC - Université du Québec à Chicoutimi)

Fréquemment utilisés en science des données, les carnets participent activement à la reproductibilité scientifique. Au moment de la création d’un carnet (au format HTML par exemple), le code source est compilé et le résultat de cette compilation, qu’il s’agisse d’analyses statistiques, de figures ou de cartes, est intégré dans le document, le tout étant entrecoupé des écrits de l’auteur.

L’objectif de cette contribution est de rendre compte de la création et de l’utilisation de « R Notebooks » en linguistique, et plus spécifiquement en phonétique expérimentale.

Les avantages cette pratique technologique sont nombreux. Elle permet de rendre compte de l’exploration d’un échantillon et d’expliciter les analyses statistiques utilisées, les valeurs-p ne se substituant pas au raisonnement scientifique et n’étant interprétables qu’en fonction de l’analyse effectuée. Elle offre la possibilité de colliger des citations marquantes ou une bibliographie complémentaire, de commenter les choix méthodologiques et les résultats obtenus, tout en favorisant le réemploi du code source. Elle présente aussi des atouts pédagogiques dans l’encadrement des étudiants de cycles supérieurs, tout en diminuant les coûts associés à la fouille et à l’analyse de données. En dernier lieu, elle soutient le processus d’évaluation des publications scientifiques puisqu’elle rend disponible le détail des méthodologies adoptées tout en préservant l’éventuelle confidentialité des données utilisées.

Résumé
Dîner
12 h 00 à 13 h 30
Dîner
Dîner
Batiment : UQAC
Local : Dîner libre
Après-midi
13 h 30 à 16 h 30
Communications orales
Littérature, traduction et journalisme
Présidence/Animation : Sylvain Rocheleau (UdeS - Université de Sherbrooke)
Discutant : Éric Poirier (UQTR - Université du Québec à Trois-Rivières), Jean-Hugues Roy (UQAM - Université du Québec à Montréal), Olivier Lapointe (UQAM - Université du Québec à Montréal)
Batiment : UQAC
Local : P1-7070
14 h 00
Une application web pour mes recherches doctorales... et plus!
Olivier Lapointe (UQAM - Université du Québec à Montréal)

La présentation portera sur les origines et le développement de l’application web mise sur pied dans le cadre de mes recherches doctorales, qui appuie maintenant les travaux de plusieurs projets de recherche en histoire et en sociologie de la culture dont La vie littéraire au Québec, le LaboPop, les Réseaux littéraires franco-canadiens et NumaPresse et qui intègre divers modules d’analyse et de visualisation de données : fouille de textes, océrisation, cartographie, analyse structurale des réseaux sociaux, analyse des correspondances multiples, etc. L’application elle-même a été conçue en PHP (framework : Yii2). Un logiciel Java (framework : Spring) a aussi été mis sur pied pour intégrer les diverses fonctionnalités de traitement de données.

Résumé
14 h 45
Dans quelle mesure la traduction n’est pas une trahison?
Éric Poirier (UQTR - Université du Québec à Trois-Rivières)

L’objectif de la communication consiste à présenter un logiciel qui a été conçu en langage Python et qui mesure la précision en mots lexicaux des segments traduits que l’on trouve dans un bitexte. Ce format de fichier bilingue et multilingue est très répandu dans le domaine de la traductologie, de la linguistique de corpus et de la traduction professionnelle puisqu’il est utilisé aussi bien dans les logiciels d’aide à la traduction que l’on appelle les mémoires de traduction qui sont des bases de données qui tendent à remplacer les logiciels de traitement de texte pour la réalisation de projets de traduction (SLD Trados, Logiterm, DéjàVu, Memo-Q, Wordfast, etc.) que dans les concordanciers offerts en consultation gratuite en ligne (linguee, tradooit, etc.) qui permettent de faire des recherches et des compilations dans des corpus bilingues pour y trouver des solutions de traduction. Le format de fichier de départ du logiciel est un bitexte créé par un logiciel propriétaire (Logiterm) mais serait possible d’utiliser plutôt un autre format (tmx) qui est aussi une devenu une norme de présentation des textes bilingues et multilingues. Les difficultés qui ont jalonné la création du logiciel ont été nombreuses.

Résumé
15 h 30
La présence des médias dans Facebook
Jean-Hugues Roy (UQAM - Université du Québec à Montréal)

Comment utiliser l'API Graph de Facebook, ainsi qu'un vieil ordinateur dans mon sous-sol, pour se constituer une base de données de la présence des médias dans le réseau social de Mark Zuckerberg.

Résumé
16 h 15
Discussion