Stage recherche -Génération de données structurées pour des services financiers F/H
Au sein de la division Innovation du groupe Orange, dans une équipe spécialisée en Data Science, vous conduirez une étude inscrite dans la thématique de la génération de données synthétiques et plus particulièrement sur la génération de données structurées sous forme de graphes, une problématique cruciale pour capturer la complexité des usages des services d’Orange, notamment des services financiers que l’opérateur déploie à travers ses filiales en Afrique.
En tant qu'acteur majeur des services de télécommunications et financiers, Orange dispose d'une grande quantité de données d'usages. Cependant l'utilisation de ces données est soumise à des réglementations strictes. Orange a choisi d'être exemplaire en matière de protection des données personnelles, conformément à sa raison d'être axée sur un monde numérique responsable. Dans ce contexte, la génération de données synthétiques revêt une importance capitale. Cette approche permet de respecter les réglementations en substituant les données réelles par des données générées, tout en préservant la confidentialité des utilisateurs. Cela ouvre la voie au développement de nouveaux services et à l'amélioration des services existants.
Ce sujet s'inscrit dans la continuité du travail réalisé cette année sur la génération de données synthétiques structurées sous forme de graphe, l'exemple concret visé étant des individus caractérisés par des features, mis en relations les uns avec les autres.
Le travail a comporté une phase d’étude de l'état de l’art, qui a mis en évidence la prédominance d'approches à base d’architectures dérivées des GCNs (Graph Convolution Networks). Nous avons proposé une approche différente, fondée sur l'exploitation d’un outil développé au sein d’Orange et désormais ouvert en Open Source : Khiops. En l’état nous disposons d'une solution qui permet de générer des graphes reliant des clients OM.
L’objectif pour 2025 serait de réaliser un nouveau générateur de données synthétiques, significativement plus complexes que celui que nous avons déjà proposé : il s’agit de générer des bases de transactions réalistes, c’est-à-dire de décomposer un lien entre deux clients en plusieurs transactions distribuées dans le temps, avec respect des contraintes « métier » (cohérence de l’évolution du solde au fil des transactions).
Une part importante de la mission portera sur la construction d’une méthodologie pour évaluer la pertinence des données générées soit en terme de ressemblance aux données réelles (adversarial classification) soit en terme d'utilité (performance d'un modèle appris sur les données synthétiques et déployées sur les données réelles).
Le stage comprendra plusieurs phases clés :
Revue de littérature : explorer les approches existantes, les métriques d’évaluation et datasets de référence
Développement d’un générateur de transaction exploitant l’approche de Khiops CoClustering
BenchmarkingGénération de données : application à la création de données de transaction
about you
• Étudiant(e) en Data Science, Informatique ou domaine connexe, niveau Master 2 / Ecole d’ingénieur.
• Connaissances en graphes et en apprentissage automatique.