«Mes capacités en luxembourgeois ne sont peut-être pas aussi étendues qu’avec des langues plus répandues comme l’anglais, le français ou l’allemand», déclare Claude, l’assistant IA. Rien d’étonnant à cela: la plupart des grands modèles de langage (LLM) formés sur des textes en anglais se révèlent moins performants lorsqu’il s’agit d’analyser ou de générer du contenu en luxembourgeois.

Alors que l’anglais ne représente qu’un cinquième des locuteurs dans le monde, il domine la formation des modèles de langage de l’IA et constitue la majeure partie du contenu en ligne. Selon le Center for Democracy & Technology (CDT), les assistants d’IA ne travaillent généralement qu’avec une petite fraction de ces langues, alors que les humains communiquent dans 7.000 langues différentes à travers le monde. Certaines langues européennes, dont le luxembourgeois, risquent d’être laissées pour compte en matière d’IA générative en raison des ressources limitées dont elles disposent pour la formation de modèles linguistiques. Le projet LLMs4EU, coordonné par l’Alliance for Language Technologies (ALT-EDIC), vise à inverser cette tendance en préservant la diversité linguistique et culturelle au sein de l’UE. Le Luxembourg, représenté par le Luxembourg Institute of Science and Technology (LIST), l’Université du Luxembourg et le Zenter fir d’Lëtzebuerger Sprooch, joue un rôle essentiel dans cette initiative pour veiller à ce que la langue et la culture luxembourgeoises ne soient pas marginalisées.

Alors que l’anglais ne représente qu’un cinquième des locuteurs dans le monde, il domine la formation des modèles de langage de l’IA et constitue la majeure partie du contenu en ligne.
Jordi Cabot

Jordi Cabothead of the Software Engineering RDI UnitLuxembourg Institute of Science and Technology (List)

Lutter contre l’inégalité linguistique dans l’IA

L’intelligence artificielle modifie notre façon de communiquer et d’accéder à l’information, mais toutes les langues ne bénéficient pas de la même attention. Le LIST, qui est l’un des représentants officiels du Luxembourg au sein du consortium ALT-EDIC et qui contribue au projet LLMs4EU, s’efforce de combler cette lacune. L’institut développe des outils d’analyse comparative pour tester et améliorer les modèles d’IA pour le luxembourgeois, afin que la langue soit mieux représentée dans le paysage numérique.

L’objectif principal de cet effort scientifique est de permettre aux entreprises européennes, en particulier aux petites et moyennes entreprises (PME), de disposer d’outils d’IA en libre accès pour toutes les langues de l’UE. Ces outils les aideront à développer des technologies linguistiques compétitives tout en respectant les réglementations européennes, notamment la loi sur l’IA et le RGPD.

Le projet LLMs4EU, avec son budget de 40 millions d’euros et ses partenariats couvrant 20 pays européens, illustre l’esprit de collaboration nécessaire pour relever les défis mondiaux.

L’IA peut-elle réussir l’examen luxembourgeois?

Lors d’une série de tests effectués récemment par le LIST, certains des modèles linguistiques d’IA les plus importants (y compris le modèle DeepSeek le plus récent) ont été soumis à une série d’examens linguistiques. Ces examens, conçus par l’Institut national des langues Luxembourg (INLL), couvrent les niveaux A1 à B2, avec des projets d’extension à C2. Les résultats ont révélé des tendances intéressantes: tous les modèles ont obtenu des résultats satisfaisants aux épreuves A1 et A2, démontrant une compréhension de base du luxembourgeois. Cependant, à mesure que les examens progressent, les différences de performance sont plus marquées. En effet, seuls les plus grands modèles sont capables d’atteindre le niveau B2, mais ces grands modèles (y compris le récent modèle o3 d’OpenAI) ne constituent sans doute pas une option viable pour de nombreuses PME en raison de contraintes liées à la confidentialité, au coût, à l’accès ou encore aux ressources (énergie, mémoire). Si les modèles ont généralement obtenu de bons résultats en vocabulaire et en grammaire, nombre d’entre eux ont rencontré des difficultés en lecture et en compréhension orale.

Une observation majeure a été faite sur les types d’erreurs partagées par tous les modèles. La plupart des modèles ont répondu de manière incorrecte à de nombreuses questions, et les réponses étaient largement similaires. La plupart des erreurs provenaient d’une mauvaise interprétation du contexte, avec de nombreuses erreurs de grammaire et de raisonnement, y compris des erreurs d’arithmétique. Ces résultats mettent en évidence les limites actuelles des modèles d’IA dans la compréhension des nuances du luxembourgeois et les défis à relever pour améliorer les capacités linguistiques de l’IA.

L’IA n’est pas seulement une course technologique; il s’agit de construire des modèles ouverts et d’adopter une approche plus économe.
Jordi Cabot

Jordi Cabothead of the Software Engineering RDI UnitLuxembourg Institute of Science and Technology (List)

Ce projet reflète la promesse que la technologie devrait être au service de tous, renforçant l’idée que la diversité – qu’elle soit linguistique, culturelle ou sociétale – est la plus grande force de l’Europe. Mais l’enjeu est encore plus important. L’IA n’est pas seulement une course technologique; il s’agit de construire des modèles ouverts et d’adopter une approche plus économe. À l’heure actuelle, la plupart des grands modèles d’IA sont construits en dehors de l’Europe, souvent avec des priorités qui ne reflètent pas nos besoins et nos valeurs. C’est pourquoi des projets comme LLMs4EU sont importants. En développant des outils d’IA ouverts et accessibles en Europe, pour l’Europe, nous nous assurons que les entreprises, les chercheurs et les citoyens européens disposent d’une IA en laquelle ils peuvent avoir confiance.