Informations générales
Événement : 86e Congrès de l'Acfas
Type : Colloque
Section : Section 600 - Colloques multisectoriels
Description :Le colloque portera sur l’utilisation des sciences de données en sciences sociales. Fondées sur les principes de la recherche reproductible, les sciences de données se présentent comme une discipline transversale pouvant lier des champs de recherche autrefois considérés en silos.
Depuis le début du 21e siècle, nos sociétés connaissent des transformations en profondeur : évolution du marché du travail, habitudes de communication, rôle de la formation permanente, etc. Tandis que la 4e révolution technologique est portée principalement par des innovations technologiques (amélioration des processeurs informatiques, de la capacité de stockage et d’analyse des données), mais aussi par un changement structurel découlant de la démocratisation d’Internet et des modes de consommation et de production de l’information, les questionnements de recherche évoluent aussi.
Ces questions serviront de base au déroulement du colloque proposé. Articulé en deux volets, le colloque présentera un panorama de l’évolution des méthodologies de recherche en sciences des données et les portées et limites de leur utilisation en sciences sociales. Il proposera ensuite des résultats de recherches universitaires appliquées à différents champs de recherche.
Remerciements :Nous remercions HEC Montréal, le Centre interuniversitaire de recherche en analyse des organisations (CIRANO) et le Centre interuniversitaire québécois de statistiques sociales (CIQSS) pour leur soutien à la recherche en Science des données pour les sciences sociales et à l'organisation de ce colloque.
Date :Programme
Exemples d’application des sciences des données aux sciences sociales
-
Communication orale
Mot de bienvenue du président du CRSHTed Hewitt
-
Communication orale
La révolution des Sciences des données dans les Sciences socialesThierry Warin (HEC Montréal) Présentation Slideshare
-
Communication orale
Les défis d'ingérer 400 millions de points par jourEtienne Bellemare Racine (Intact)
-
Communication orale
Populisme et intégration européenne : une analyse de Science des données des doctrines de partis politiquesWilliam Sanger (Polytechnique Montréal), Thierry Warin (HEC Montréal)
Bien que le processus d'intégration européenne ait été confronté à de nombreux défis, il semble que ceux à venir pourraient être plus déterminant quant à son avenir. Depuis la crise financière de 2008, l’Europe a mis en place un ensemble de nouvelles réglementations et d’institutions afin d’apporter une réponse crédible. Les crises de la dette souveraine ont par la suite rouvert le débat sur la légitimité du projet européen, accélérées par des chocs externes comme la crise des réfugiés. Celle-ci a été utilisée pour promouvoir la renationalisation du contrôle politique, ayant écho le 23 juin 2016, lors du vote du Brexit.
Comment l’intégration européenne se reflète-t’elle à travers les plateformes électorales des partis politiques en Europe? Quelles sont les positions des partis à l’extrémité du spectre politique et comment évoluent-elles depuis deux décennies?
Pour répondre à ces questions, nous utilisons une base de données qui agrège l’ensemble des manifestes politiques depuis 1945. Nous mesurons le degré de similitude entre les propositions des différents partis politiques, puis développons un modèle économétrique pour mettre en relation le succès électoral et le sentiment d’intégration européenne. Les algorithmes de science de données permettent de comparer un ensemble de textes écrits en plusieurs langues, de créer des indicateurs basés sur des données non structurées et d’observer les variations au sein de l’Union européenne depuis le début des années 2000. -
Communication orale
Le forage de données (Data Mining), une approche pour adresser la complexité dans les grandes bases de données liées au vieillissementMaimouna Bagna (UdeS - Université de Sherbrooke)
L'un des défis majeurs de la recherche sur le vieillissement est l’interaction complexe des mécanismes biologiques, psychologiques et sociologiques impliqués dans le processus. Pour mieux comprendre cette complexité, il faut mettre en œuvre une approche intégrative, capable de jumeler plusieurs domaines de connaissances et de recherche afin de mieux appréhender leur interaction. Aujourd’hui, avec le nombre grandissant des bases de données liées au vieillissement disponibles, cette approche intégrative devient possible, en autant que des méthodes d’analyse suffisamment puissantes soient utilisées.
Les techniques de forages de données (Data Mining), sciences issues de l’informatique et de l’IA, sont basées sur l’apprentissage à partir des données (Data-driven Knowledge Discovery Methods). Ce sont de puissantes techniques automatiques qui permettent de générer de nouvelles connaissances et proposer de nouvelles hypothèses. Considérant notre démarche pluridisciplinaire et multidimensionnelle pour adresser la complexité du vieillissement, ces techniques sont toutes indiquées.
Cette présentation a donc pour but d’introduire les méthodes de forage de données et d’illustrer les résultats de leur application pour le profilage des patrons de vieillissement dans la cohorte de NuAge, une étude longitudinale populationnelle québécoise, ainsi que dans l’échantillon de l’Enquête sur la Santé dans les Collectivités Canadiennes-ESCC-Vieillissement en santé, de Statistiques Canada.
Dîner
Sciences des données et sciences sociales : portées et limites
-
Communication orale
L’Infrastructure intégrée des microdonnées historiques de la population québécoise : une ressource pour le jumelage et l’analyse des données d’état civil et de recensementHélène Vézina (UQAC - Université du Québec à Chicoutimi)
Le Québec a l'avantage d'une ressource documentaire exceptionnelle et remarquablement bien conservée : les actes de naissance, de mariage et de décès enregistrés par l’Église catholique depuis les débuts de la colonisation française au 17e siècle. Il y a 50 ans, le Programme de recherche en démographique historique (PRDH) à l’Université de Montréal et BALSAC à l’Université du Québec à Chicoutimi, entamaient la saisie et le jumelage de ces actes d’état civil dans le but de constituer des fichiers de population. Plus récemment, des données québécoises provenant des recensements historiques canadiens (1852‐1911) ont été informatisées par le Centre interuniversitaire d’études québécoises (CIEQ). Née du partenariat développé entre ces trois groupes, l’Infrastructure intégrée des microdonnées historiques de la population québécoise (IMPQ) vise à mettre en commun ce patrimoine historique et scientifique unique et à favoriser son accessibilité à la communauté scientifique notamment par le développement d’un portail d’accès Web et par la création d’outils de jumelage et d’analyse. Le vaste ensemble d’informations biographiques colligées dans l’IMPQ ouvre de nouvelles perspectives de recherche sur la base des trajectoires individuelles au sein des familles, des ménages et des communautés, et ce, selon une approche multi-générationnelle.
-
Communication orale
Une visualisation des données des publications qui traitent des impacts du gaz de schiste sur la santé et l'environnement aux Etats-UnisAnn Backus (Harvard T. Chan School of Public Health), Nathalie De Marcellis - Warin (Polytechnique Montréal), Christophe Mondin (CIRANO), Thierry WARIN (HEC Montréal)
Les États-Unis sont le seul pays au monde où la fracturation hydraulique, une méthode de production d’hydrocarbures non-conventionnelle, s’est fortement implantée et continue à se développer à grande vitesse.
A l’inverse, de nombreux gouvernements restent prudents face à l’exploitation des huiles et gaz de schiste, le recours aux techniques de fracking s’accompagnant de sérieuses préoccupations face aux risques pour la santé publique et l’environnement.
Sous la forme de cartes, FrackProject présente trois niveaux d’analyse de cette industrie : (1) FrackMap avec ses données empiriques et économiques relatives à l'activité de l'industrie); (2) FrackBiblio avec ses données non-structurées et localisées issues de la revue de littérature systématique; (3) FrackTweet avec ses données non-structurées et localisées issues des réseaux sociaux. Localiser les données sert à produire des cartes interactives, offrant un prisme d’analyse des différents enjeux relatifs à l’industrie de la fracturation hydraulique. En illustrant les préoccupations des scientifiques ainsi que celles du public sous forme de cartes, FrackProject présente une nouvelle perspective au sujet et permet d'informer le public et les décideurs (e.g. soutenir les politiques publiques).
-
Communication orale
Brevets pharmaceutiques en Chine : une perspective de Science des donnéesCharlotte Vorreuther (HEC Montréal), Thierry Warin (HEC Montréal)
Depuis 2015, la Chine est le premier pays devant les États-Unis en termes du nombre de brevets soumis chaque année. Le gouvernement Chinois joue un rôle important dans ce projet de réduction de la dépendance du pays à la R&D internationale ou de l'attractivité de l'économie chinoise aux innovations mondiales. Cet article a pour but d’explorer les spécificités de l’innovation en Chine à travers le cas de l’industrie pharmaceutique. Plusieurs champs de la littérature sont mobilisés : les dynamiques de l’innovation, l’internationalisation de la R&D, l’innovation ouverte et, finalement, le concept de transfert des connaissances. En termes méthodologiques, afin de caractériser les dynamiques d’innovation au sein de l'industrie pharmaceutique en Chine, une nouvelle technique issue de la Science des données est utilisée: l’analyse de texte sur l’ensemble des brevets. L’objectif est d’obtenir une compréhension plus précise de ce qu’est l’innovation en Chine. La base de données collectée est constituée de 238,000 brevets pharmaceutiques du Derwent World Patent Index entre 1990 et 2017, et constitue ainsi une source de données non-structurées. La contribution de ce mémoire est double : d’une part méthodologique, à travers l’utilisation de la Sciences des données appliquées aux sciences sociales, d’autre part thématique, de part la cartographie de l’innovation en Chine au regard de l’industrie pharmaceutique.
-
Communication orale
Une cartographie des brevets en intelligence artificielleRomain Le Duc (HEC Montreal & CIRANO), William Sanger (Polytechnique Montréal), Thierry Warin (HEC Montréal)
-
Communication orale
Fintech et analyse des données : les robots conseillersPaul Daigle (HEC Montréal), Robert Normand (CIRANO)
Depuis Markowitz, l’écart-type des rendements est utilisé comme la mesure principale de risque pour construire les portefeuilles financiers. La prémisse est que la corrélation est un indicateur parfait pour évaluer les interactions entre les différents actifs. Cependant, dans des environnements informationnels incomplets et imparfaits, des défis apparaissent. Dans un contexte de transformation numérique des processus via l’apprentissage machine, de nouvelles méthodes émergent pour essayer de résoudre ces défis. Parmi eux, les réseaux Bayesiens utilisent la parenté des variables pour inférer une forme de causalité et surtout capturer les dynamiques informationnelles, en utilisant les probabilités conditionnelles. Ce papier de recherche vise à évaluer la viabilité des réseaux Bayesiens pour la gestion des risques, notamment via des simulations de scénarios. Les rendements historiques des 500 compagnies du S&P500 sont utilisés avec ceux de l’indice et des différents secteurs industriels afin de bâtir des réseaux Bayesiens. Dans un premier temps, nous testons l’efficacité de ces réseaux en comparant les distributions conditionnelles (des rendements des compagnies sur ceux du S&P500) prédites et celles historiques, via un test de Pearson (Chi-carré). Les modèles traditionnels tels que le CAPM ou les modèles multi-facteurs sont aussi testés et comparés. Dans un second temps, nous effectuons la même procédure pour les rendements des compagnies entre elles.