ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Détection de modèle et de périodicité dans des données infonuagiques - Par : Cédric St-Onge, Nadjia Kara, Omar Abdel Wahab, Claes Edstrom, Yves Lemieux,

Détection de modèle et de périodicité dans des données infonuagiques


Cédric St-Onge
Cédric St-Onge Profil de l'auteur(e)
Cédric St-Onge est étudiant au doctorat et chargé de cours au Département de génie logiciel et des TI.

Nadjia Kara
Nadjia Kara est professeure au Département de génie logiciel et des TI. Ses recherches sont axées sur l’ingénierie de trafic, la télésanté, la gestion des ressources dans les réseaux et l’ingénierie de service pour les réseaux de communication.

Omar Abdel Wahab
Omar Abdel Wahab Profil de l'auteur(e)
Omar Abdel Wahab est professeur adjoint à l'Université du Québec en Outaouais. Ses activités de recherche actuelles portent principalement sur l'intelligence artificielle, la cybersécurité, l’infonuagique et l'Internet des objets

Claes Edstrom
Claes Edstrom est spécialiste senior de l'infonuagique chez Ericsson. Ses intérêts de recherche comprennent la transformation des applications, la gestion des ressources et l'automatisation dans les environnements infonuagiques

Yves Lemieux
Yves Lemieux a fait de la R et D chez Ericsson Canada Inc.

Périodicité

Achetée sur Istock.com. Droits d’auteur.

RÉSUMÉ:

La détection proactive de modèle et de périodicité dans des charges de travail d’environnements infonuagiques est une technique pouvant être utilisée pour optimiser les stratégies d’approvisionnement de ressources et anticiper tout problème de performance. Toutefois, les techniques actuelles sont restrictives en ce sens qu’elles requièrent non seulement une intervention constante d’administrateurs chevronnés, mais aussi car ces techniques sont spécifiques à un type particulier de données (ex. : taux d’utilisation CPU, trafic réseau, etc.). Afin de surmonter ces restrictions et pour fournir un outil générique et automatisé pouvant détecter des modèles d’amplitude, de longueur et de type variés, nous proposons une approche employant une technique par transposition de préfixe [1], [2]. Des tests conduits sur des jeux de données de CPU et de débit provenant de nœuds de serveurs infonuagiques et d’environnements IMS virtualisés démontrent que notre approche surpasse la technique d’autocorrélation dans la précision des détections. Mots-clés : Analyse de séries chronologiques, infonuagique, détection de modèle

Les défis inhérents à l’analyse des ressources d’un système infonuagique

La virtualisation est un concept fondamental soutenant l’architecture de systèmes infonuagiques, dans lesquels de nombreuses applications partagent la même infrastructure physique, optimisant ainsi l’utilisation des ressources et réduisant les coûts d’exploitation. Toutefois, pour garantir un fonctionnement harmonieux de ces systèmes virtualisés et pour améliorer l’expérience client (QoS – Quality of Service), les ressources doivent être constamment mises à l’échelle (scaled) pour réagir aux fluctuations de la demande [3].

Le déploiement de mécanismes de détection de modèle et de périodicité est donc nécessaire pour permettre la surveillance et l’analyse du comportement des ressources d’un système infonuagique [4]. Ceux-ci sont essentiels pour déceler des tendances/modèles périodiques servant à faciliter le travail des administrateurs en amont, leur permettant, d’abord, de déceler proactivement un comportement anormal du système, puis, d’ajuster les stratégies d’échelonnement des ressources en conséquence.

Cependant, les approches existantes soutenant ces mécanismes souffrent de certaines limitations restreignant leur performance. Tout d’abord, ces dernières ont recours à une intervention constante de la part des administrateurs pour spécifier les paramètres et les critères de l’approche de détection, par exemple, la fréquence à laquelle la série chronologique est périodique. Ensuite, ces approches ne sont efficaces que lorsque la périodicité de la charge de travail est dite stationnaire (c.-à-d., lorsque la longueur, la forme et l’amplitude de la période sont de taille fixe). Ce second point est un enjeu majeur dans les environnements de production industriels puisque la longueur, la forme et l’amplitude des cycles périodiques varient grandement en fonction, notamment, de l’utilisation sous-jacente du système (p. ex. le système répond à une forte demande prévisible due à un match de hockey au Centre Bell) ou du moment de la journée/semaine/mois (l’utilisation du système dans le centre-ville de Montréal en semaine par rapport à l’utilisation de ce système en fin de semaine).

Une nouvelle approche proposée

Pour répondre aux limitations citées précédemment, nous proposons une nouvelle approche de détection de modèle et de périodicité pour les environnements infonuagiques. Cette dernière capitalise sur une technique de transposition de préfixe, qui a démontré son efficacité en biologie moléculaire dans la déduction de connections fonctionnelles et évolutionnaires des génomes. La solution proposée se démarque du fait qu’elle peut détecter des cycles périodiques de longueur, d’amplitude et de forme variables pour n’importe quel type de série chronologique discrète.

Pour démontrer son efficacité, des expérimentations ont été exécutées à l’aide de jeux de données de serveurs Web virtualisés de l’École de technologie supérieure ainsi que sur une plateforme OpenIMS virtualisée. Les résultats obtenus démontrent que notre approche peut détecter n’importe quel type de cycle périodique avec précision et qu’elle se démarque comparativement à des techniques classiques, basées sur l’analyse de coefficients d’autocorrélation.

motif fait par les vagues

L’approche proposée se divise en deux phases. 

La phase de préparation

La première phase, appelée la phase de préparation, consiste à effectuer un pré-traitement d’un jeu de données de charge de travail en vue d’en affiner les courbes de tendances et d’en retirer les valeurs aberrantes.

Génération de splines

Les principales étapes de la phase de préparation se résument ainsi : tout d’abord, la série chronologique discrète de la charge de travail est convertie en splines pour en retirer les valeurs aberrantes et affiner les courbes de tendances. Le résultat est une série continue pouvant être re-discrétisée à des intervalles de temps voulus.

Transposition de préfixe

Les valeurs re-discrétisées sont ensuite converties en leur équivalent binaire. Cela permet de transposer une séquence de chiffres de taille fixe dans chacune des valeurs et d’en faire l’extraction. Cette séquence de chiffres est appelée une « empreinte numérique ». L’empreinte numérique est un élément clé de notre approche, car c’est à l’aide de cette caractéristique que nous pouvons distinguer la forme et la longueur d’un cycle périodique. Par la suite, les autres valeurs n’ayant pas été extraites lors de la transposition de préfixe sont conservées et passent par des étapes de filtrage supplémentaires. Ces résidus seront utiles pour déceler l’amplitude de cycles périodiques.

La phase de décision

La seconde phase, appelée la phase de décision, consiste à scruter les empreintes numériques à l’aide d’un filtre de patrons modèles insérées dans une fenêtre glissante. Une paire successive d’un patron modèle ascendant et d’un patron modèle descendant confirme la présence d’un cycle périodique donné. Par la suite, différentes étapes supplémentaires sont utilisées pour dénombrer les cycles périodiques, déterminer leur forme, leur longueur et leur amplitude.

Évaluation de l’approche proposée

Nous avons évalué notre approche avec un jeu de données de charge de travail de CPU provenant d’un serveur Web virtualisé de l’ÉTS. Les données CPU ont été prélevées aux 30 minutes sur l’étendue d’une semaine. La figure 1 illustre sommairement les différentes étapes de conversion des valeurs brutes de la série chronologique en empreintes numériques avec, en juxtaposé, les patrons de cycles périodiques détectés (patrons ascendants en rouge et patrons descendants en bleu). La figure 2, quant à elle, illustre la série chronologique discrète brute en a), suivi de la série continue générée à l’aide d’une spline accompagnée des patrons détectés en b) et, finalement, des cycles périodiques détectés à l’aide d’un graphe de coefficients d’autocorrélation en c).  Le tableau 3 compare le nombre de cycles périodiques détectés à l’aide de notre approche comparativement à la technique d’analyse des coefficients d’autocorrélation.

conversion des données en empreintes numériques

Fig. 1. App. Web – Données observées, empreintes numériques et écarts d’empreintes numériques

Fonction d’autocorrélation

Fig. 2. App. Web – Données observées, détection de périodicité et fonction d’autocorrélation

comparaison de détection de périodicité

Conclusion

Dans ce travail de recherche, nous avons proposé une approche de détection de modèle et de périodicité dans des données infonuagiques dont les principaux avantages résident en (1) sa nature générique, permettant son adoption pour n’importe quel type de série chronologique ainsi que (2) dans son aptitude à détecter des cycles périodiques, peu importe leurs propriétés d’amplitude, de longueur et de forme. Nos expérimentations sur des banques de données CPU et de débit provenant d’environnements virtualisés IMS et Web démontrent que notre solution améliore considérablement la précision de détection de modèles et de périodicité comparativement aux approches basées sur l’autocorrélation, particulièrement dans des situations de variations extrêmes de la charge de travail.

Information supplémentaire

Pour plus d’information sur cette recherche, consulter l’article suivant :

St-Onge, Cédric; Kara, Nadjia; Wahab, Omar Abdel; Edstrom, Claes; Lemieux, Yves. Detection of time series patterns and periodicity of cloud computing workloads. Future Generation Computer Systems. Volume 109. pp. 249-261.

Cédric St-Onge

Profil de l'auteur(e)

Cédric St-Onge est étudiant au doctorat et chargé de cours au Département de génie logiciel et des TI.

Programme : Génie des technologies de l'information 

Laboratoires de recherche : LASI – Laboratoire en architecture de systèmes informatiques 

Profil de l'auteur(e)

Nadjia Kara

Profil de l'auteur(e)

Nadjia Kara est professeure au Département de génie logiciel et des TI. Ses recherches sont axées sur l’ingénierie de trafic, la télésanté, la gestion des ressources dans les réseaux et l’ingénierie de service pour les réseaux de communication.

Programme : Génie des technologies de l'information  Génie logiciel 

Laboratoires de recherche : LASI – Laboratoire en architecture de systèmes informatiques 

Profil de l'auteur(e)

Omar Abdel Wahab

Profil de l'auteur(e)

Omar Abdel Wahab est professeur adjoint à l'Université du Québec en Outaouais. Ses activités de recherche actuelles portent principalement sur l'intelligence artificielle, la cybersécurité, l’infonuagique et l'Internet des objets

Programme : Génie des technologies de l'information 

Profil de l'auteur(e)

Claes Edstrom

Profil de l'auteur(e)

Claes Edstrom est spécialiste senior de l'infonuagique chez Ericsson. Ses intérêts de recherche comprennent la transformation des applications, la gestion des ressources et l'automatisation dans les environnements infonuagiques

Profil de l'auteur(e)

Yves Lemieux

Profil de l'auteur(e)

Yves Lemieux a fait de la R et D chez Ericsson Canada Inc.

Profil de l'auteur(e)


commentaires

    Laisser un commentaire

    Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *