ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Pourquoi le « BigData » en génomique? - Par : Abraham Gomez,

Pourquoi le « BigData » en génomique?


Abraham Gomez
Abraham Gómez est chercheur en TI. Ses intérêts de recherche incluent l’intelligence artificielle, les applications infonuagiques ainsi que les applications génétiques des mégas données. Il termine actuellement un doctorat à l’ÉTS.

Image d’entête de infocux Technologies, license CC, source.

De nos jours, il est difficile d’imaginer un monde sans Internet. D’une part, dans notre quotidien, on commence la journée en se connectant sur Internet. On regarde nos courriels, on consulte le climat, le transport en commun, les réseaux sociaux de notre préférence, etc. Parfois, on reste connecté pendant toute la journée. D’autre part, les progrès scientifiques récents dans la recherche en santé exigent une grande puissance de calcul et une grande capacité de stockage au niveau des serveurs Internet.

En 2013, on compte environ plus de 2,2 milliards d’internautes dans le monde [1]. Il est logique de penser que cette utilisation massive d’Internet a généré une quantité excessive d’informations qui doivent être enregistrées, analysées et réutilisées.

Or, de nombreux problèmes liés à cette nouvelle manière de vivre sont apparus, entre autres, la mauvaise utilisation de nouveaux termes ou, dans le meilleur des cas, leur utilisation hors contexte. Un de ces termes est le « BigData » entendu partout dans le milieu industriel et académique et souvent lié à la recherche en santé, en particulier, à la génomique.

Premièrement, le mot volume est utilisé pour dire que le BigData gère des ensembles de données qui deviennent tellement volumineux qu’ils en sont difficiles à travailler avec des outils classiques de gestion de l’information comme les bases de données relationnelles. Nous allons commencer par décrire ici la signification de l’expression «tellement volumineux». On entend souvent que le stockage sur disque est mesuré sur une échelle de GB (Gigabyte ou gigaoctet) ou TB (Terabyte ou téraoctet), ce qui revient à dire qu’on peut demander un disque de 750 GB ou un autre de 1 TB pour un ordinateur personnel par exemple.

BD2

[Img1]

Or, l’expression «tellement volumineux» réfère à des petabytes (1000 TB) ou encore à des exabytes (1000 Petabytes). Un exemple bien connu, Facebook, génère à l’heure actuelle 10 TB de données par jour et Twitter 7 TB.

Deuxièmement, pour ce qui est de l’approche axée sur la variété, elle permet  de dire que les  données sont complexes. Les données traditionnelles sont d’habitude de type « textes » et elles sont faciles à gérer par les bases de données actuelles, faciles à transformer aussi vers des structures relationnelles. Les données qu’utilisent le BigData sont d’une myriade d’origines. Elles proviennent de l’internet comme résultat d’un processus d’analyses, ou elles sont seulement de type textes, images ou vidéos. Elles peuvent aussi être publiques, privées, organisées par IP, serveur ou pays. C’est pour cela qu’elles deviennent difficiles à traiter  avec les outils traditionnels.

Finalement, l’approche par la vélocité permet de dire que les données arriveront par un flux à une grande vitesse, c’est-à-dire qu’elles sont générées, capturées et partagées rapidement et l’application BigData doit être capable de traiter ces données avant de commencer un nouveau cycle de génération des données.

Les bases de données relationnelles classiques ne permettent pas de gérer les volumes, la variété et la vélocité des données du BigData. De nouveaux modèles de représentation permettent de garantir la performance des données. Par exemple, pour le framework Hadoop, son modèle de programmation MapReduce et ses bases de données HBase peuvent être une solution optimale. Dans ce système, les processus sont séparés et distribués dans différents nœuds parallélisés, puis exécutés en parallèle; les résultats sont ensuite rassemblés et récupérés. C’est le cœur du modèle MapReduce.

Les acteurs de ce modèle doivent s’appuyer sur des systèmes avec une forte scalabilité horizontale et sur des solutions basées sur l’architecture No-SQL comme HBase.

Le génome humain est constitué de l'ensemble de l'information portée par nos 23 paires de chromosomes.

Le génome humain est constitué de l’ensemble de l’information portée par nos 23 paires de chromosomes [Img2].

Nous allons maintenant expliquer d’une manière simple et courte le terme « génomique ». Ce mot fait partie de la biologie moderne et désigne la science qui étudie le fonctionnement d’un organisme, d’un organe ou d’une maladie comme le cancer à l’échelle du génome et non plus à celle d’un seul gène, en tenant compte de l’action réciproque de plusieurs gènes. Le génome est l’ensemble du matériel génétique d’un individu ou d’une espèce. Il est codé dans l’ADN ou dans l’ARN pour certains virus. Le génome contient toutes les séquences d’ADN. Voici un exemple concret: le génome peut être comparé à une encyclopédie dont les différents volumes (23 pour les humains) seraient les chromosomes.

Les gènes seraient les phrases contenues dans ces volumes et ces phrases seraient écrites dans un langage génétique représenté par quatre bases (adénine, guanine, cytosine et thymine) abrégées en AGCT.

Prenons un exemple : un laboratoire de recherche souhaite faire une caractérisation du cancer secondaire du foie (métastatique) d’un point de vue de la génomique, c’est-à-dire, il essaye de trouver les gènes et leurs interactions qui causent cette maladie. Premièrement, le génome humain a une taille approximative de 3,5 GB et il est composé approximativement de 22 000 gènes. De plus, il existe des différences significatives entre les génomes des êtres humains, de l’ordre de 0,1%. Pour bien effectuer la tâche consistant à caractériser le cancer du foie, le laboratoire doit collecter de nombreux génomes de plusieurs types de personnes, comme par exemple des personnes ayant cette maladie, celles ne l’ayant pas, et faire toutes les combinaisons possibles avec parents sains et parents avec un historique de cancer. Tout le processus, en cinq étapes, est le suivant:

  1. Le génome de chaque personne est comparé à l’ensemble des génomes de référence (ou contrôle). Comme déjà mentionné, ils ne diffèrent que dans 0,1%.
  2. Les différences entre le génome analysé et le génome de référence sont appelées variantes ou mutations et elles sont soulignées. Ces variantes pourraient être la preuve d’un problème (ou d’une maladie) et elles doivent être enregistrées sur le disque.
  3. L’utilisateur de l’application compare les variantes de tous les patients. L’objectif est d’analyser quelles variantes sont partagées pour les personnes avec la maladie et ainsi caractériser une maladie en particulier.
  4. Une autre comparaison est nécessaire, puisqu’il est possible qu’une personne ait les variantes remarquées dans le génome des personnes malades mais qu’elle n’ait pas la maladie. Il est indispensable de faire une mise à jour et d’exclure les patients qui n’ont pas la maladie mais sont encore à la table des variantes. L’objectif ici est d’affiner les résultats.
  5. Enfin, quand une variante est détectée, il faut chercher à savoir si la variante est héréditaire ou non en examinant le génome de la famille du patient.

À partir de cette application, on peut voir qu’une base de données relationnelle pour gérer ce type d’informations peut déborder facilement les téraoctets. En effet, dans l’exemple précédent, la base de données est d’une taille de 4 TB. Cela est conforme à la caractéristique de volume du BigData. La caractéristique variété est également atteinte car le résultat doit être exprimé en plusieurs formats, et, finalement, la caractéristique de vélocité est aussi présente parce que les résultats doivent être présentés aux chercheurs rapidement.

 

 

 

Abraham Gomez

Profil de l'auteur(e)

Abraham Gómez est chercheur en TI. Ses intérêts de recherche incluent l’intelligence artificielle, les applications infonuagiques ainsi que les applications génétiques des mégas données. Il termine actuellement un doctorat à l’ÉTS.

Programme : Génie des technologies de l'information  Génie logiciel 

Profil de l'auteur(e)


Recevez les dernières actualités scientifiques de l'ÉTS
commentaires

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *