Résultats de l’étude financée : La surveillance génomique et la modélisation pour mettre fin aux variants de la COVID-19

Depuis le début de la pandémie de COVID-19, le génome du SRAS-CoV-2 a été séquencé à une échelle sans précédent. Cela permet à la communauté scientifique de détecter de nombreuses mutations génétiques survenues au cours de son évolution, y compris des variants préoccupants qui se sont rapidement propagés dans la population humaine.

L’énorme quantité de données disponibles sur le séquençage du génome viral a également entraîné de nouveaux défis informatiques qui ont fait entrer la génomique virale dans l’ère des « mégadonnées ». En effet, la gestion de millions de séquences nécessite des solutions de stockage efficaces, le traitement de données manquantes, l’intégration de différentes sources et des techniques de visualisation puissantes. Si les analyses phylogénétiques sont la principale approche utilisée par la communauté, elles nécessitent de nombreuses étapes de prétraitement et de posttraitement, souvent réalisées à la main par des spécialistes des données, ce qui rend l’ensemble du processus long, quelque peu arbitraire et difficile à reproduire. Ces limites dans un paysage de données qui évolue rapidement exigent des stratégies alternatives afin d’obtenir des observations rapides basées sur toutes les données disponibles pour une surveillance génétique virale efficace.

Dans cette étude, nous présentons un ensemble d’approches de génomique des populations appliquées aux données de séquence du SRAS-CoV-2 provenant de la base de données GISAID au cours de la première année de la pandémie de COVID-19. Nous montrons comment cette boîte à outils, qui est capable de tirer parti de toutes les données sans qu’il soit nécessaire de réduire la taille de l’ensemble de données, peut être utilisée pour effectuer une analyse approfondie de la diversité génétique du SARS-CoV-2. La boîte à outils comprend une méthode d’imputation pour compenser les problèmes de séquençage entraînant des données manquantes. Les relations évolutives entre les séquences sont représentées par un réseau d’haplotypes, qui constitue une méthode efficace de génétique des populations permettant de classer les séquences virales en fonction d’un ensemble de marqueurs génétiques significatifs. Pour comprendre la dynamique d’expansion d’une lignée ou d’un variant, nous avons utilisé le célèbre test de neutralité en génétique des populations connu sous le nom de D de Tajima. Enfin, nous montrons comment l’analyse en composantes principales (ACP) des variations génétiques du SRAS-CoV-2 est une technique de visualisation révélatrice pour identifier les sauts évolutifs dans le paysage génétique viral.

En conclusion, nos approches permettent la caractérisation en temps réel des lignées émergentes du SRAS-CoV-2, ce qui permet la mise en œuvre rapide de pipelines d’analyse de données dynamiques, mondiales et actualisées pour répondre aux questions les plus urgentes de la recherche sur les variants viraux.

Mostefai Fatima, Gamache Isabel, N’Guessan Arnaud, Pelletier Justin, Huang Jessie, Murall Carmen Lia, Pesaranghader Ahmad, Gaonac’h-Lovejoy Vanda, Hamelin David J., Poujol Raphaël, Grenier Jean-Christophe, Smith Martin, Caron Etienne, Craig Morgan, Wolf Guy, Krishnaswamy Smita, Shapiro B. Jesse, Hussin Julie G. Population Genomics Approaches for Genetic Characterization of SARS-CoV-2 Lineages, Frontiers in Medicine, Vol 9, 2022. doi:10.3389/fmed.2022.826746