ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Sélection de clients pour l’apprentissage fédéré dans l’IdO - Par : Sawsan Abdul Rahman, Hanine Tout, Azzam Mourad, Chamseddine Talhi,

Sélection de clients pour l’apprentissage fédéré dans l’IdO


Sawsan Abdul Rahman
Sawsan Abdul Rahman Profil de l'auteur(e)
Sawsan Abdul Rahman est étudiante au doctorat en génie logiciel à l’ÉTS et chercheure chez Ericsson, Canada. Ses intérêts de recherche portent sur l’IA, l’apprentissage machine, la sécurité. Elle est examinatrice auprès de plusieurs revues.
Programme : Génie logiciel 

Hanine Tout
Hanine Tout est titulaire d’une bourse de recherche postdoctorale à l’ÉTS et Ericsson. Ses recherches portent sur l’IA, l’apprentissage fédéré, l’apprentissage machine, la sécurité, la 5G et l’IMS nuagique.

Azzam Mourad
Azzam Mourad est professeur associé d’informatique à l’Université libano-américaine et également professeur associé affilié au département de génie logiciel et d’informatique de l’ÉTS.

Chamseddine Talhi
Chamseddine Talhi Profil de l'auteur(e)
Chamseddine Talhi est professeur au Département de génie logiciel et d’informatique de l’ÉTS. Ses intérêts de recherche comprennent la gestion et la sécurité des services de télécommunications nuagiques et les réseaux mobiles nuagiques.

Apprentissage machine

Achetée sur Istockphoto.com. Droits d’auteur.

RÉSUMÉ:

Solution de rechange aux modèles centralisés, l’apprentissage fédéré (Federated Learning, FL) nous permettrait de franchir une nouvelle étape dans la protection des données. En FL, les données brutes sont conservées à même les dispositifs, tandis que les modèles partagés sont traités localement, puis agrégés de façon globale en plusieurs cycles. Les clients participants sont sélectionnés de façon aléatoire ou quasi aléatoire. Cependant, l’hétérogénéité des données des clients IdO et leurs ressources limitées peuvent nuire à l’apprentissage et affecter la précision du modèle. C’est pourquoi nous proposons FedMCCS, une approche multicritères de sélection de clients pour apprentissage fédéré. UCT, mémoire, énergie et temps sont tous pris en compte dans les ressources clients et le nombre de clients FedMCCS est maximisé pour chaque cycle. Mots clés – Apprentissage fédéré, Internet des objets, sélection multicritères, gestion des ressources.

Défis des systèmes d’apprentissage fédéré

Aujourd’hui, la multiplicité des données générées par les appareils mobiles et l’IdO rendent les applications de plus en plus intelligentes. Cependant, ces données sont stockées dans une entité centrale, entraînant un enjeu majeur quant à la protection de la vie privée. 

Pour résoudre ce problème, Google a adopté le terme apprentissage fédéré (FL) pour aborder la confidentialité des données. Dans ce type d’apprentissage, plutôt que d’envoyer des données dans le nuage, des modèles d’apprentissage machine (AM) sont formés localement à même les dispositifs. Les modèles générés sont ensuite envoyés au serveur pour agrégation, produisant un modèle global amélioré. 

Toutefois, différents ensembles de clients sont sélectionnés de façon aléatoire [1] ou quasi aléatoire [2] d’un cycle à l’autre. Lorsque des clients IdO à ressources limitées sont sélectionnés, leur temps de traitement est non seulement plus long, mais l’apprentissage peut échouer, affectant ainsi la précision du modèle. 

Protocole amélioré d’apprentissage fédéré

Pour répondre aux défis susmentionnés, une approche de sélection de clients se basant sur plusieurs critères a été proposée pour notre protocole FL, tenant compte de la disponibilité des ressources de chacun. La figure 1 illustre l’architecture à haut niveau du cadre proposé. D’abord, une communication entre les deux entités (dispositifs IdO et serveur) est lancée pour connaître les ressources du client. Selon la réponse obtenue, un algorithme de régression linéaire est utilisé afin de déterminer la capacité en UCT, en mémoire et en énergie du client pour effectuer la tâche d’apprentissage. Le temps estimé pour le téléchargement, la mise à jour du modèle et le téléversement est également calculé et comparé à un seuil défini par le serveur. 

Grâce à ces mesures, l’approche proposée permet de maximiser le nombre de clients sélectionnés, d’agréger plus de mises à jour par cycle et de minimiser le nombre de cycles de communication.

Architecture de l’apprentissage fédéré

Figure 1. Architecture à haut niveau du cadre proposé.

Validation de la méthode proposée

Une étude de cas nous a permis d’examiner la détection d’intrusions sur le réseau, où de bons modèles peuvent faire la distinction entre les connexions normales/adéquates et les intrusions/attaques. Pour cette tâche, nous avons utilisé l’ensemble de données NSL-KDD [3] et considéré 100 clients, à raison d’un maximum de 10 clients sélectionnés par cycle.

Nous avons comparé notre approche avec les deux références suivantes : 

  • VanillaFL : Approche FL originale [1] où 10 clients sont sélectionnés au hasard par le serveur pour participer aux cycles FL. 
  • FedCS : FL avec sélection de clients [2], où 10 clients sont d’abord sélectionnés au hasard par le serveur pour partager leurs ressources. FedCS, où seul le temps nécessaire pour obtenir les mises à jour des clients est représenté, a été utilisé pour sélectionner les clients.
Précision des tests en fonction des cycles de communication en apprentissage fédéré

Figure 2. Précision des tests c. cycles de communication

La figure 2 montre le nombre de cycles de communication requis pour atteindre une précision de 80 %. Les zones ombrées représentent l’écart type de cinq exécutions. Notez que notre approche FedMCCS est plus performante que les deux autres en ce qui a trait aux cycles de communication. Pour atteindre une précision de 80 %, FedMCCS nécessite 108 cycles, alors que ce nombre augmente de 8,0 x pour VanillaFL, à raison de 861 cycles, et de 8,4 x pour FedCS, à raison de 912 cycles. Ces résultats sont probablement dus au fait que nous avions plus de clients participant aux cycles FL.

La variation des clients sélectionnés capables de terminer l’apprentissage, sans abandon, a également été étudiée. En particulier, la figure 3 montre que FedMCCS sélectionne le plus grand nombre de clients performants, puisqu’il tient compte de nombreux critères (UCT, mémoire, énergie et temps) affectant les abandons.

Nombre de clients performants en fonction des cycles de communications lors de l’apprentissage fédéré

Figure 3. Variation du nombre de clients sélectionnés par cycle

D’autre part, un cycle est considéré comme rejeté lorsque moins de 70 % des clients sélectionnés n’envoient pas leurs paramètres de modèle au serveur. Nos expériences démontrent que FedMCCS ne produit que quelques cycles rejetés, par rapport aux deux autres, comme le montre la figure 4. Par conséquent, nous pouvons voir que plus nous avons de clients, plus la précision est élevée et moins il y a rejet de cycles.

Efficacité de l’approche proposée d’apprentissage fédéré

Figure 4. Cycles FL achevés c. cycles rejetés sur 1000

Conclusion

Notre proposition FedMCCS est un apprentissage fédéré amélioré prévoyant une sélection multicritères de clients, soit un schéma d’optimisation qui peut efficacement sélectionner et maximiser le nombre de clients participant à chaque cycle, tout en considérant leur hétérogénéité et leurs ressources limitées de communication et de calcul.

Des expériences réelles démontrent que FedMCCS est capable de former et de produire des modèles d’AM très performants avec moins de cycles de communication que les approches et protocoles existants.

Sawsan Abdul Rahman

Profil de l'auteur(e)

Sawsan Abdul Rahman est étudiante au doctorat en génie logiciel à l’ÉTS et chercheure chez Ericsson, Canada. Ses intérêts de recherche portent sur l’IA, l’apprentissage machine, la sécurité. Elle est examinatrice auprès de plusieurs revues.

Programme : Génie logiciel 

Laboratoires de recherche : LASI – Laboratoire en architecture de systèmes informatiques 

Profil de l'auteur(e)

Hanine Tout

Profil de l'auteur(e)

Hanine Tout est titulaire d’une bourse de recherche postdoctorale à l’ÉTS et Ericsson. Ses recherches portent sur l’IA, l’apprentissage fédéré, l’apprentissage machine, la sécurité, la 5G et l’IMS nuagique.

Laboratoires de recherche : LASI – Laboratoire en architecture de systèmes informatiques 

Profil de l'auteur(e)

Azzam Mourad

Profil de l'auteur(e)

Azzam Mourad est professeur associé d’informatique à l’Université libano-américaine et également professeur associé affilié au département de génie logiciel et d’informatique de l’ÉTS.

Profil de l'auteur(e)

Chamseddine Talhi

Profil de l'auteur(e)

Chamseddine Talhi est professeur au Département de génie logiciel et d’informatique de l’ÉTS. Ses intérêts de recherche comprennent la gestion et la sécurité des services de télécommunications nuagiques et les réseaux mobiles nuagiques.

Programme : Génie logiciel  Génie des technologies de l'information 

Laboratoires de recherche : LASI – Laboratoire en architecture de systèmes informatiques 

Profil de l'auteur(e)


Recevez les dernières actualités scientifiques de l'ÉTS
commentaires

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.