Pour le data scientist luxembourgeois Maxime Allard, l’IA ne peut pas être abandonnée aux sociétés privées. (Photo: Matic Zorman/Maison Moderne)

Pour le data scientist luxembourgeois Maxime Allard, l’IA ne peut pas être abandonnée aux sociétés privées. (Photo: Matic Zorman/Maison Moderne)

Dans l’équipe Data Science and AI d’IBM, le jeune Luxembourgeois Maxime Allard a connu un début de carrière fulgurant à New York et Londres. Son dada? L’intelligence artificielle, responsable et encadrée.

Si le Luxembourg cherchait aussi des talents luxembourgeois pour l’aider dans la mise en place de sa stratégie sur l’intelligence artificielle, il serait bien avisé de s’arrêter sur le profil hors norme de Maxime Allard. Avec un master en operation research de l’université de ­Columbia en poche, il a choisi d’être à temps partiel chez IBM, dans une des équipes les plus performantes au monde dans le domaine de l’IA… pour pouvoir se consacrer à un doctorat sur l’intelligence artificielle et la robotique au Collège impérial de Londres. «Je veux avoir un impact sur le quotidien tout en restant attentif aux problèmes de concentration de pouvoir dans les mêmes mains. Il y a beaucoup de bénéfices si on applique ces technologies pour assister les humains, que ce soit dans la médecine ou dans l’éducation», confie cet ingénieur de 26 ans.

Il y a beaucoup de mythes autour du mot data scientist. Pourriez-vous expliquer ce que fait un data scientist au quotidien?

«Le terme en lui-même a tellement de définitions, de société en société… J’ai un projet qui commence avec un client. Je vois ce qu’il a comme données, pour savoir où on peut aller chercher de la valeur ou de l’automatisation dans ses processus. Dès qu’on a un but ou une direction, le travail commence. À 90%, il s’agit de mettre les données en ordre, de les réunir dans une région ou dans un serveur, de les nettoyer, avant de pouvoir utiliser les modèles de machine learning, qui s’entraînent sur ces données. Le plus intéressant est d’utiliser les différents modèles pour différentes tâches dès que la donnée est prête. Si on a des résultats, si on les a vérifiés, on peut mettre cela en production. C’est là où il y a data scientist et data scientist. Soit ce sont des prototypes et il n’y a pas grand-chose qui se passe après, on montre que le modèle pourrait fonctionner. Soit on essaie de mettre cela en production, d’utiliser un modèle pour des milliers de prédictions ou de demandes avec le client pour qu’il en tire un bénéfice.

Qu’est-ce que le client va gagner? Vous auriez un exemple?

«Prenez une société qui a des données de marketing, sur la population. Elle veut faire du marketing ciblé ou personnalisé pour déclencher des achats. Avant notre arrivée, leur système était assez lent et ils ne pouvaient pas utiliser toutes les données qu’ils avaient. Des millions de données avec 20.000 points différents par personne. Nous les avons aidés à réunir leurs données, à les nettoyer, à avoir une plateforme pour construire plusieurs modèles par semaine, pouvoir mesurer et contrôler ce que fait l’intelligence artificielle. Avant, leurs analystes avaient 20 modèles par semaine. Aujourd’hui, ils peuvent en faire 400. Avoir un retour plus rapide pour leurs clients pour envoyer des publicités. Pouvoir contrôler si le modèle fonctionne et le corriger, si jamais il présente des biais. La valeur, c’est toute la structure.

Pourquoi est-ce que des biais apparaissent?

«Il y a différentes raisons. Prenons la plus ‘facile’. Une société avait un modèle IA pour lire les CV. Ils ont entraîné l’IA sur des données historiques. Ils ont lancé leur modèle… qui rejetait tous les CV féminins.

Pourquoi étaient-elles rejetées?

«Le modèle a simplement appris des données qu’on lui a fournies. Dans ce jeu de données, il y avait un label ‘rejeté’ ou next round’ et il a remarqué qu’une grande partie des femmes portaient le label ‘rejeté, alors il rejetait les CV de femmes. Cette société a dû interrompre l’utilisation de ce procédé. Cela fait partie des biais qui viennent simplement des données qu’on donne à l’intelligence artificielle. Sans rien faire d’autre.

Vous pourriez illustrer cela aussi, s’il vous plaît?

«Au cours de la Seconde Guerre mondiale, les militaires américains cherchaient à renforcer les avions. Ils ont montré tous les endroits d’impacts de balles et ils ont donc renforcé tous ces points-là comme étant les plus fragiles. Ce n’était pas du tout là que l’avion devait être renforcé… ils avaient oublié de prendre en compte les avions qui ne revenaient plus, et c’est cela qu’il fallait regarder! C’est un exemple de biais de sélection de données.

Vous auriez un autre exemple, pour aider à comprendre cette problématique cruciale des biais?

«Le biais indirect est tout aussi problématique. Des points de données, sur des individus, ont plus d’informations sur ces individus qu’on aurait pensé. Prenez un système de prêts bancaires. Le modèle apprend sur des données historiques. La société demande que soient enlevées les données sur l’âge et le sexe, pour ne pas discriminer une partie de la population qui n’aurait pas accès au prêt. Mettons que dans les données, il y ait un code postal. Or, aux États-Unis, l’âge et le niveau de revenus peuvent être très corrélés au code postal. Juste avec le code postal, le modèle peut prendre des décisions qu’on ne voulait pas avoir. Des populations peuvent se retrouver dans des quartiers un peu moins favorisés et voir leur accès au crédit diminué sur ce seul aspect. Ce n’est pas juste.

Préparer un jeu de données, même avant tout le reste, est déjà compliqué…

«Oui! Et malheureusement, cela ne se fait pas assez. C’est ce que nous essayons de faire chez IBM, de rendre ce travail de préparation plus équitable, plus juste. Détecter les biais directs ou indirects. Et même de regarder cela plus tard, car il se peut que le jeu de données change. Le modèle a-t-il changé sur la même période? Il faut préparer les données, surveiller les résultats du modèle pendant qu’il travaille et s’il le faut rectifier a posteriori.

Rectifier, c’est aussi introduire de nouveaux biais…

«Oui, je suis tout à fait d’accord! On peut introduire un biais de rectification si on change les prédictions pour qu’elles soient à notre goût. C’est pour cela que je pense qu’il est très important d’avoir une transparence des modèles utilisés en production. On a une méthodologie – les IA fact sheets – qui prévoit une labellisation de chaque modèle qu’on met en production avec tous les changements à toutes les étapes, afin qu’ils soient documentés. On a enlevé le sexe parce qu’on ne veut pas avoir un biais lié au sexe. On a enlevé le code postal parce que le modèle a trouvé ce biais indirect. On a ajouté ces nouveaux champs parce qu’ils nous ont aidés à trouver des prédictions plus pertinentes. Ce qui est dangereux, c’est la concentration de force, de pouvoir, à travers le contrôle de ces modèles. L’idée est d’avoir une transparence sur l’origine des données, sur ce qu’on fait avec et sur les mesures de rectification qu’on prend. Pour le client, c’est bien aussi, que ce soit pour un service financier ou d’assurance. Pouvoir lui dire: ‘ça, c’est un modèle qui s’appuie sur ces points de données.’ Au client de décider de ce qui lui convient. Comme pour le règlement général sur la protection des données. Des modèles sont assez simples à comprendre, c’est comme un arbre. Si c’est un homme, on fait ceci; si c’est une femme, on fait cela. De manière presque binaire. Et d’autres, comme les réseaux de neurones, font un peu ce qu’ils veulent. Il en sort un résultat difficile à mesurer.

On dit aussi souvent que l’algorithme doit être «robuste». Qu’est-ce que cela signifie?

«Prenez une société qui est dans le secteur des voitures autonomes. Il est très facile de modifier les décisions du modèle avec de petits changements. Imaginez une voiture autonome: elle roule. Normalement, la voiture reconnaît le panneau ‘Stop’ et elle s’arrête. Mais si on met un petit QR code sur le panneau, il est capable de rendre le modèle de la voiture tellement confus que ce dernier pense que c’est un feu vert. Au lieu de marquer le stop, la voiture passe. Ce n’est qu’un exemple d’une situation très dangereuse où la décision du modèle n’est pas du tout celle qu’on aurait imaginée. Le modèle n’était pas du tout robuste face à ce ‘bruit’. Mais on peut imaginer un modèle pour des prêts bancaires. Si moi, en tant qu’utilisateur, je sais comment modifier mes données pour obtenir ce prêt, alors il ne sert à rien. On peut aussi imaginer que des modèles soient victimes d’attaques et il faut les y préparer.

Avec l’essor des outils numériques et des objets connectés, nous produisons de plus en plus de données. Elles sont très éclatées. Certaines sociétés vont avoir un gros pouvoir parce qu’elles connaissent beaucoup de choses sur certains d’entre nous, non?

«Malheureusement, beaucoup de sociétés conservent tout ce qu’elles ont. Toutes ces données leur appartiennent. Si on combine cela avec d’autres données, comme les achats que nous effectuons, tout ce qui passe par nos cartes de crédit… Des sociétés commencent à acheter ces données pour les mettre dans une base de données unifiée et les revendre. Ce qui est très dangereux, même si on ne le sait pas au début. On se dit qu’on s’en moque un peu. Ces données peuvent être utilisées pour des décisions qui peuvent changer nos vies, pour des prêts bancaires par exemple. Si j’ai un profil social ou un profil d’achat très mauvais, ça intéresse qui? Mais imaginons que dans 10 ans, toutes les décisions sont prises par une intelligence artificielle qui utilise toutes les données auxquelles elle a accès: je n’aurai pas de prêt parce que le modèle pense qu’avec ces données, je ne mérite pas de prêt. J’espère vraiment qu’on va dans une direction où l’intelligence artificielle peut assister l’humain et pas prendre des décisions à la place de l’humain. Si le modèle décide tout seul, ça va devenir très dangereux. Les sociétés qui ont ces modèles pourraient se retrouver avec un pouvoir incroyable!

Qu’est-ce qu’on devrait faire pour limiter les modèles qui décident par eux-mêmes et pour favoriser les modèles d’assistance de l’humain?

«Il faut avoir un comité ou une commission d’éthique, dans chaque pays ou dans chaque industrie, qui organise un contrôle de ces modèles. Je ne pourrai pas exercer un métier sans mon diplôme, dans certains pays, vous ne pouvez pas être avocat sans diplôme. Les quatre axes dont nous venons de parler, à quel point est-ce que je peux les contrôler, quelles sont les décisions et sur quoi elles s’appuient, est-ce qu’il existe des biais et est-ce que j’essaie de les exclure ou de les corriger? Toutes ces métriques doivent être présentées à ce comité. Cela réduit la possibilité d’avoir des modèles qui prennent des décisions en mode «black box». C’est bénéfique pour les modèles et pour les données. Dans le rapport du Liser, commandé par le Premier ministre, Xavier Bettel (DP), on voit que, souvent, les gens ne font pas assez confiance au modèle et pensent que leurs données sont peut-être utilisées de manière dangereuse. C’est normal parce que très peu de sociétés montrent quelles données elles utilisent pour faire quoi. Le consommateur doit pouvoir savoir et dire s’il veut ou pas participer à cela.

Et que fait-on avec les modèles qui ne résisteraient pas à l’examen par la commission ou le comité?

«C’est une bonne question. Ces modèles de­vraient être repris par la société qui les présente. Si le consommateur n’a pas été consulté, il faut prévoir qu’il puisse se positionner. Si le modèle a un biais contre un groupe, il faut le rectifier ou donner un avertissement au consommateur. Il ne faut pas laisser passer de modèles qui ont des défauts. Les sociétés doivent se rendre compte que l’intelligence artificielle, ce n’est pas de la magie. L’IA va avoir un vrai impact dans nos décisions individuelles. Il est important d’avoir un monitoring sur chaque décision. On sait bien qu’il est aussi possible de montrer un jeu de données à la commission et de le changer ensuite…

Le HPC et les premiers projets qui vont l’utiliser ainsi que les développements autour des technologies quantiques vont eux aussi avoir un énorme impact sur l’intelligence artificielle, non?

«Oui. Il y a deux côtés. Du côté du développement et de la recherche, des sociétés ont déjà leur HPC parce qu’elles veulent manipuler des données avec des milliards de paramètres. Les modèles qui permettent de comprendre et d’écrire en anglais ont eu un succès fou récemment, on peut faire des chatbots, ils peuvent même écrire du code et on a pu les faire seulement grâce aux HPC et aux GPU privés. Pour le Luxembourg, avoir un HPC qui puisse être utilisé pour de la recherche, c’est très bien. Mais c’est très différent du côté de la production, parce que la recherche met en place des modèles plus précis, mais qui ne doivent pas prendre en compte ce qu’un modèle en production doit prendre en compte. Est-ce que cela va changer grand-chose à propos de la confiance dans l’intelligence artificielle? Je ne suis pas sûr. Si le secteur privé voit qu’il y a des développements dans ce secteur au Luxembourg, les sociétés vont se demander ce qu’elles doivent faire pour intégrer cela dans leur quotidien et comment être éthiques. Beaucoup de ressources de calcul, c’est bien pour montrer tout ce qui est possible.

L’étude du Liser montre qu’il y a encore beaucoup à faire pour que la société comprenne ces enjeux…

«C’est un peu choquant et pas choquant en même temps. Pour utiliser un service, les gens cliquent sans se demander ce qui pourrait bien se passer. Jusqu’à ce que ce soit une décision qui ait un impact sur leur vie. Dans la presse, on a peur que les robots prennent le contrôle de la Terre, c’est un peu n’importe quoi…

Est-ce qu’il y a un risque que l’IA se substitue à l’humain?

«Non. Dans certains domaines, les tâches pourraient être plus précises. Dans la médecine, l’IA permettra d’avoir des gestes plus précis, mais la décision restera chez l’humain. Souvent, les gens ont peur que les robots ou l’intelligence artificielle enlèvent tous les emplois. C’est un changement d’expertise. Il y a eu beaucoup de changements à l’arrivée de la machine à vapeur, mais l’industrie s’est adaptée.»

Inconscience aujourd’hui, risque demain

L’étude commandée par le Premier ministre, (DP), au Liser, sur la perception de l’intelligence artificielle et des données personnelles, a montré une relative méconnaissance générale sur la dissémination des données personnelles, abandonnées gratuitement à Facebook, Amazon et consorts, au nom de l’utilisation d’un service. Si les résidents luxembourgeois perçoivent vaguement une menace, difficile d’en définir les contours et d’en préciser les risques.

Cet article a été rédigé pour  parue le 27 mai 2021.

Le contenu du magazine est produit en exclusivité pour le magazine, il est publié sur le site pour contribuer aux archives complètes de Paperjam.

Votre entreprise est membre du Paperjam Club? Vous pouvez demander un abonnement à votre nom. Dites-le-nous via