Je travaille sur la compression de données. Il s’agit d’une pratique qui consiste à réduire l’espace nécessaire à l'enregistrement des données. Elle se base sur une théorie mathématique de l’information stipulant qu’un fichier peut être compressé jusqu’à une taille limite de sorte qu’aucune information ne soit perdue dans le processus.
[Ce texte est parmi les trois lauréats 2015 du Concours de vulgarisation de la recherche de l'Acfas, parrainé par le Secrétariat à la politique linguistique du Québec].
De nos jours, les astronomes professionnels effectuent leurs observations en grande partie à l’aide d’ordinateurs, et ce, souvent à distance. Par exemple, à l’université où j’effectue actuellement mon doctorat (Swinburne University of Technology en banlieue de Melbourne, Australie), une salle de contrôle est disponible pour diriger les télescopes de l’observatoire W. M. Keck à Hawaii (voir image ci-dessous)?. Les astronomes utilisent aussi les ordinateurs pour simuler l’Univers et développer des modèles théoriques afin d’expliquer les phénomènes observés.
Un infini… de données
Comme pour tant d’autres branches des sciences, l’astronomie est désormais confrontée, sur une base quotidienne, aux problématiques du Big Data, prenant plusieurs formes. Un projet contenant un très grand nombre de fichiers de petite taille est l’une d’elles. Par exemple, plusieurs catalogues d’observations enregistrent plusieurs milliers d’images où chaque image ne nécessite que quelques centaines de mégaoctets (Mo). À titre indicatif, une tablette iPad de base possède un espace de stockage de 16 gigaoctets (Go), soit 16 000 Mo.
Une seconde forme survient lorsqu'un nombre restreint de fichiers de grandes tailles sont nécessaires pour représenter un projet. Par exemple, la « Simulation du Millénaire » qui reproduit visuellement l’histoire de l’Univers depuis le Big Bang jusqu’à la formation des premières étoiles, des galaxies et autres macrostructures a été enregistrée en 64 scènes de 300 Go chacune, l’équivalent de 1200 iPad!
Finalement, certains projets comportent un grand nombre de fichiers de grande taille. Ce sera le cas du Réseau d’un kilomètre carré qui devrait entrer en activité en 2020, une collaboration internationale de onze pays incluant le Canada. Il s’agit d’un réseau de 3000 radiotélescopes qui seront situés en Australie et en Afrique du Sud. Un tel réseau est ce qu’on appelle un interféromètre : toutes les antennes peuvent être utilisées conjointement pour former un immense télescope. Le SKA devrait collecter environ 14 exaoctets chaque jour – soit environ 30 millions de iPad quotidiennement! Si on empilait tous ces iPad, on obtiendrait une tour environ 19 fois plus haute que le mont Everest!
Des défis de taille
D’une part, toutes ces données permettent la réalisation de projets de plus en plus ambitieux. Par exemple, parmi les différents objectifs scientifiques du SKA, les chercheurs comptent observer avec grande précision l’époque à laquelle l’Univers devint transparent, connue sous le nom de l’époque de la ré-ionisation, quelques 400 millions d’années après le Big Bang! D’autre part, l’énorme quantité de données représente une contrainte sérieuse pour la méthodologie de travail des astronomes. De tels volumes de données ne peuvent pas être enregistrés en entier sur un ordinateur personnel et parfois même sur un superordinateur. De plus, le temps requis pour les transmettre d’un point A à un point B peut être considérable. Les méthodes de travail doivent donc être revues. C’est ici que mes recherches entrent en jeu.
Comprimer pour « couper dans le gras »
Je travaille sur la compression de données. Comme son nom l’indique, il s’agit d’une pratique qui consiste à réduire l’espace nécessaire à l'enregistrement des données. Elle se base sur une théorie mathématique de l’information stipulant qu’un fichier peut être compressé jusqu’à une taille limite de sorte qu’aucune information ne soit perdue dans le processus. C’est ce que l’on appelle la compression « sans perte ». Une fois cette limite dépassée, le résultat sera une approximation du fichier original : c’est la compression « avec pertes ». Il peut sembler contre-productif de perdre des informations, mais il s’agit d’une pratique courante. Par exemple, elle est fréquemment utilisée dans les systèmes de communications numériques (téléphones mobiles et télévisions). L’œil et l’oreille humaine ne perçoivent pas nécessairement ces manques!
Pour l’astronomie à l’ère du pétaoctet, la compression avec pertes permet une importante économie d’espace et de temps. Toutefois, il y a des risques importants à introduire des pertes : obtenir des analyses scientifiques incorrectes. Avant d’utiliser de telles techniques, il importe donc d’évaluer l’effet de ces pertes pour savoir jusqu’où elles peuvent être tolérées sans compromettre la science.
Mes recherches de maîtrise effectuées à l’Université Laval de 2011 à 2013 ont porté sur la compression des données générées par un nouvel instrument installé à l’Observatoire du Mont-Mégantic : le spectro-imageur à transformée de Fourier de l’Observatoire du Mont-Mégantic (SpIOMM, prononcé « espion » ). Cet espion est en fait le prototype derrière SITELLE, le spectro-imageur maintenant installé au Télescope Canada-France-Hawaii, situé au sommet du volcan endormi, Mauna Kea, sur l’île d'Hawaii??. Ces instruments permettent à la fois de photographier une portion du ciel et d’y obtenir la décomposition de la lumière visible en arc-en-ciel. On peut alors observer le ciel par tranche de couleurs et y extraire une foule d’informations sur la physique observée. SpIOMM et SITELLE génèrent de gros fichiers (environ 400 Mo par fichier pour SpIOMM et quelques Go pour SITELLE), et plusieurs fichiers sont générés chaque scéance d’observation. On veut donc réduire leur taille, tant pour l’archivage que pour la transmission lors de télé-observations.
Récemment, j’ai testé ce type de compression afin d’accélérer une scéance de télé-observations. De nos locaux à Hawthorn en banlieue de Melbourne, nous avons effectué des observations à l’aide du télescope CTIO et de la caméra DECam au Chili. DECam enregistre plusieurs images d’environ un Go chacune en quelques minutes seulement. Transmettre de tels fichiers depuis le Chili jusqu’en Australie requiert environ 20 minutes par fichier. Une fois compressé, un fichier ne nécessitait environ qu’une minute pour nous arriver, nous permettant alors d’évaluer la qualité des données collectées et de réagir rapidement en cas de problème. Le catalogue complet non compressé des deux nuits d’observations est finalement arrivé en Australie une semaine plus tard!
Ainsi, que ce soit pour avoir accès rapidement aux données télécollectées ou pour éviter de les mettre aux oubliettes, la compression de données apparaît très clairement comme une avenue utile, voire incontournable, pour le futur de l’astronomie à l’ère du pétaoctet!
- Dany Vohl
Université Laval et Université de technologie Swinburne
Originaire de Saint-Marc-des-Carrières dans le compté de Portneuf, Dany Vohl effectue d’abord une technique en informatique de gestion au cégep François-Xavier-Garneau à Québec, qui le mène à l’Institut National de la Recherche Scientifique – eau, terre et environnement. Par la suite, il déménage à Vancouver où il travaille d’abord à UBC puis à NS8 Corporation comme dévelopeur. Depuis Vancouver, il obtient un baccalauréat ès sciences (multidisciplinaire) à la Téluq, s’intéressant principalement aux sciences de l’environnement, à l’informatique et à l’astronomie. Il publie en parallèle de la musique diffusée sur diverses stations radiophoniques telles que la Première Chaîne et Espace Musique. Puis, il effectue une maîtrise en informatique à l’Université Laval sous la supervision de Danny Dubé et Laurent Drissen. Ses recherches portent alors sur la compression des données générées par un nouvel instrument d’observation astronomique développé à l’Université Laval et installé au Mont-Mégantic; un prototype pour le télescope Canada-France-Hawaii. Il est présentement doctorant en astrophysique à Swinburne University of Technology à Melbourne, Australie. Ses recherches focalisent sur les problématiques liés à l’astronomie à l’ère du pétaoctet telles que le stockage, le transfert, la visualisation et l’analyse de large quantité de données que génèrent les télescopes modernes.
Vous aimez cet article?
Soutenez l’importance de la recherche en devenant membre de l’Acfas.
Devenir membreCommentaires
Articles suggérés
-
Un nouveau regard sur la guerre de Sept Ans : les travaux de Jacinthe De Montigny -
Entre droit occidental et droit autochtone : l’étude de la représentation politique de Fannie Duverger -
Sondage - La responsabilité sociale de la communauté de la recherche : la perception des chercheuses et des chercheurs
Infolettre