Compliant by Design : pourquoi la Suisse a-t-elle besoin d’un LLM ?

L’EPF de Zurich et l’EPFL ont développé Apertus, le premier grand modèle de langage au monde entièrement ouvert. Cette innovation démontre qu’une IA transparente et souveraine est possible. C’est exactement ce dont la Suisse et l’Europe, ont besoin.

Unsplash

Apertus pourrait évoquer le nom d’un Romain dans un album d’Astérix. Mais si l’on s’attarde un instant sur l’univers de cette bande dessinée, ce nom symbolise plutôt la résistance gauloise face à la suprématie de Rome. Cet article présente le modèle linguistique Apertus et explique pourquoi la Swiss AI Initiative a réussi un coup de maître avec son lancement.  

« L’avenir appartient à… » 

Apprendre les proverbes fait partie intégrante de l’apprentissage d’une langue. Les personnes de langue maternelle française savent tôt ou tard que « L’avenir appartient à… » est généralement suivi de « ceux qui se lèvent tôt ». Les grands modèles de langage, appelés Large Language Models (LLM), ne font en principe rien de plus que cela. Ils apprennent à calculer quels mots sont plus susceptibles d’apparaître dans tel ou tel contexte : par exemple, « ceux qui se lèvent tôt » est généralement la suite la plus probable de la phrase commençant par « L’avenir appartient à… ».  

Un LLM est un vaste réseau neuronal, un modèle mathématique de calcul. Le modèle prend des mots comme entrée et produit des mots comme sortie. Par de nombreuses étapes de conversion, l’entrée « L’avenir appartient à… » est transformée en sortie « ceux qui se lèvent tôt ».  

Le modèle lui-même est constitué des mots et des relations qui les unissent. On peut l’imaginer comme une carte sur laquelle les mots similaires sont proches les uns des autres. Plus deux mots (au minimum) sont éloignés sur cette carte, plus leurs significations sont différentes. L’essentiel est que les LLM représentent le langage non pas en deux dimensions, mais en plusieurs dimensions.  

Des modèles comparables aux LLM actuels existent depuis 2017. Ils ont été portés à la connaissance du grand public en 2022, quand OpenAI a lancé le chatbot ChatGPT. De nombreuses applications différentes sont désormais basées sur les LLM. Celles-ci incluent non seulement des systèmes spécialisés, comme la traduction automatique, mais aussi des chatbots à large spectre capables de résumer des contenus, de suggérer des propositions de textes, de générer des images, etc. On observe une émergence croissante d’agents capables d’agir de manière autonome dans des domaines définis et de gérer des correspondances, de développer des programmes ou d’effectuer des transactions. 

L’ouverture plutôt que la recherche du profit 

Les modèles propriétaires d’Alphabet, de DeepSeek, de Meta, de Mistral et d’OpenAI présentent tous le même problème : ils ne sont pas ouverts et il n’est pas possible de vérifier quelles données ont été utilisées lors de leur entraînement, ni si elles étaient légales.  

Les créateurs d’Apertus ont choisi une approche opposée. Non seulement le modèle peut être téléchargé et installé en tant qu’instance autonome, mais cela est également possible avec une partie des autres modèles. Contrairement aux autres modèles disponibles, le manuel de développement complet d’Apertus est accessible à tout le monde. Ainsi, toute personne intéressée peut comprendre pas à pas la genèse d’Apertus. Du code source aux informations sur les paramètres précis utilisés lors de l’entraînement, en passant par les données d’entraînement. Apertus n’est donc pas seulement un modèle de langage, mais aussi une documentation complète et reproductible de son développement. Cela pose de nouveaux jalons en matière d’ouverture et de transparence. De plus, Apertus est le seul grand modèle de langage entièrement compatible avec la loi sur l’IA de l’Union européenne et la protection des données locale, et respectant les lois européennes sur le droit d’auteur. 

Multilinguisme et souveraineté technologique 

Une autre particularité d’Apertus est qu’il intègre des données textuelles dans plus de 1000 langues à son kit d’entraînement. Compte tenu de la nature multilingue d’Internet, cela peut paraître anodin. Mais il s’agit en fait d’un facteur de différenciation important. Tandis que la plupart des modèles courants sont principalement entraînés en anglais, Apertus, avec seulement 60 % de données d’entraînement en anglais, témoigne de son engagement en faveur du multilinguisme et de la diversité culturelle. Des textes dans des langues moins répandues, comme le romanche, ont également été intégrés dans l’entraînement d’Apertus. 

Les grands modèles de langage actuellement disponibles sur le marché proviennent pour la plupart des États-Unis ou de Chine. Compte tenu de l’importance croissante de la souveraineté technologique, ce constat devrait nous faire réfléchir. En effet, les LLM deviennent une infrastructure de plus en plus essentielle au fonctionnement de nombreux secteurs et industries. À l’avenir, des économies entières en dépendront, tout comme elles dépendent aujourd’hui d’Internet.  

De ce point de vue, ce n’est ni l’utilisation individuelle, ni la requête individuelle, ni l’instance individuelle installée sur un serveur local qui posent problème. C’est le fait que l’Europe ne joue qu’un rôle de figuration dans ce domaine. Et qu’il n’y a guère d’alternatives aux modèles américains et chinois.  

Science et infrastructures 

Le simple fait que plus d’une centaine de scientifiques de l’EPF Zurich, de l’EPFL et d’autres hautes écoles suisses aient créé et publié un grand modèle de langage ouvert sous l’égide de la Swiss AI Initiative est déjà remarquable. En effet, cela implique de relever des défis très différents. De plus, un ordinateur approprié est indispensable pour entraîner le modèle : le supercalculateur Alps à Lugano.  

La construction et l’exploitation de tels ordinateurs nécessitent non seulement des investissements importants, mais aussi un savoir-faire adapté. Apertus a été entraîné pendant plusieurs mois sur plus de 4000 puces Nvidia. À eux seuls, les coûts d’électricité pour cette phase dépassent la barre du million. La Suisse a eu la chance d’avoir acheté des puces avant que ses exportations ne soient limitées par le gouvernement américain.  

Pourquoi un LLM suisse ? 

Apertus est loin d’atteindre le niveau des applications concurrentes développées avec des investissements beaucoup plus conséquents. Même si une comparaison entre ChatGPT et Apertus peut paraître évidente, elle ne permet pas de saisir l’essence même de l’importance d’Apertus. 

D’une part, Apertus est un projet scientifique dédié à la recherche en technologies informatiques et à la formation du personnel qualifié : seuls quelques étudiants et étudiantes ont la possibilité de travailler sur un modèle moderne d’IA pendant leurs études, comme c’est le cas à l’EPF de Zurich et à l’EPFL.  

D’autre part, Apertus est un modèle de base, une sorte de moteur, sur la base duquel des applications pourront être réalisées à l’avenir, par exemple en l’adaptant (« peaufinage ») à des données spécifiques à un secteur d’activité.  Grâce à sa licence Apache 2.0, plus rien ne s’oppose à une utilisation commerciale. L’intérêt de la communauté Open Source est considérable, comme en témoignent les plus de deux millions de téléchargements au cours des premiers mois. 

Dans cette perspective, le voyage et le travail avec Apertus ne font que commencer. Et un LLM européen ouvert doit encore montrer comment il évolue. Une chose est claire aujourd’hui : ne pas communiquer plus largement et plus clairement l’importance d’Apertus pour la suisse en tant que pôle de recherche constituerait bien plus qu’une occasion manquée.  

L’IA et les grands modèles de langage sont là pour durer. Il est essentiel que la science s’intéresse directement à cette technologie. Le fait que la Suisse ait la possibilité de développer un tel modèle et de participer à la conception de cette technologie est extrêmement important.   

Liens complémentaires