S3 — Voir dans l'espace d'un modèle

▶ Écouter ce chapitre (≈ 15–20 min)

On a posé que le sens est une position dans un espace, dans les machines comme dans le cerveau. Mais cette image, prise au pied de la lettre, soulève une objection que tu as peut-être déjà formulée. Si chaque concept est une direction dans l'espace, et qu'un modèle connaît des millions de concepts, il faudrait des millions de dimensions. Or un modèle comme Claude travaille avec des vecteurs de quelques milliers de dimensions seulement. Comment loger des millions de concepts dans quelques milliers de directions ? Ce chapitre répond à cette question, et la réponse ouvre l'un des domaines les plus fascinants de la recherche actuelle : l'interprétabilité, l'art de lire dans l'espace sémantique d'un modèle.

Le paradoxe : plus de concepts que de dimensions

Reprenons le calcul, parce qu'il est au cœur de tout. Une couche interne d'un grand modèle manipule des vecteurs d'activation de, disons, quelques milliers de dimensions. Si la règle était « un concept égale une dimension », le modèle ne pourrait représenter que quelques milliers de concepts distincts. C'est absurdement peu. Un modèle distingue des dizaines de milliers de mots, des styles, des tons, des entités, des relations, des registres, des langues, des intentions — l'inventaire des choses qu'il sait reconnaître se compte en millions. Il y a là une contradiction apparente entre la richesse du modèle et l'étroitesse de son espace.

La solution que les modèles ont trouvée, ou plutôt que l'entraînement a fait émerger, porte un nom : la superposition. Et c'est une idée magnifique. Au lieu d'attribuer une dimension propre à chaque concept, le modèle range les concepts dans des directions de l'espace qui ne sont pas perpendiculaires entre elles, mais simplement assez différentes. Imagine un espace à deux dimensions, donc un plan. Tu ne peux y placer que deux directions vraiment perpendiculaires. Mais tu peux y placer des dizaines de directions distinctes, comme les rayons d'une roue, pourvu qu'elles fassent entre elles un angle suffisant. Si tu acceptes un petit peu de chevauchement, un peu d'interférence, tu peux entasser énormément de directions dans peu de dimensions. C'est exactement ce que fait le modèle : il entasse beaucoup plus de concepts qu'il n'a de dimensions, en tolérant un léger bruit d'interférence.

Pourquoi ça marche sans tout casser ? Parce que, à tout instant, seule une petite poignée de ces concepts est active. Un texte donné ne parle pas de tout à la fois ; il parle de quelques choses. Donc même si des milliers de concepts se partagent l'espace, les rares qui s'activent simultanément ont peu de chances de se gêner. La superposition est un pari statistique sur la rareté : comme les concepts sont rarement actifs tous ensemble, on peut les faire cohabiter dans le même espace exigu. Anthropic a montré, dans des modèles jouets entièrement maîtrisés, que c'est précisément la stratégie que l'entraînement adopte quand il y a plus de features utiles que de dimensions disponibles.

C'est la clé du paradoxe, et c'est aussi la raison pour laquelle l'espace d'un modèle est si difficile à lire. Si chaque concept avait sa dimension propre et bien rangée, on ouvrirait le modèle comme un tableur. Mais à cause de la superposition, chaque dimension brute participe à des dizaines de concepts à la fois, et chaque concept est éparpillé sur des dizaines de dimensions. Un neurone du modèle, pris isolément, s'active pour des choses sans rapport : un peu pour les citations en anglais, un peu pour l'ADN, un peu pour les majuscules. On dit qu'il est polysémantique. L'espace est richement informé, mais brouillé.

Décompresser l'espace : les autoencodeurs parcimonieux

Voici alors le problème technique posé aux chercheurs : comment passer de cet espace brouillé, où les concepts se chevauchent, à une liste lisible de concepts séparés ? La réponse, développée notamment par Anthropic à partir de 2023, s'appelle l'autoencodeur parcimonieux. Le nom est intimidant, l'idée est simple.

On prend les activations internes du modèle — ces vecteurs brouillés de quelques milliers de dimensions — et on entraîne un second réseau, séparé, dont le seul travail est de les ré-exprimer dans un espace beaucoup plus grand, mais avec une contrainte stricte : à tout instant, presque toutes les dimensions de ce nouvel espace doivent être à zéro. C'est ça, « parcimonieux » : très peu de choses actives à la fois. On force le système à dire « ce vecteur brouillé, c'est en réalité la somme de trois ou quatre concepts purs, et rien d'autre ».

L'effet est spectaculaire. En décompressant ainsi l'espace, on obtient des dizaines de milliers, parfois des millions, de directions nouvelles — appelées features — et celles-ci, contrairement aux neurones bruts, sont monosémantiques : chacune correspond à un concept identifiable. Anthropic a appliqué ça à des modèles réels et publié les résultats. Ils ont trouvé des features qui s'activent pour des choses incroyablement précises : une feature pour le pont du Golden Gate, une autre pour les bugs dans du code informatique, une autre pour la notion de servilité, une autre pour les sous-entendus de tromperie, une autre pour les références bibliques. Soudain, l'espace devient lisible. On ne voit plus une bouillie de nombres ; on voit une liste de concepts, chacun avec sa direction propre. C'est, au sens presque littéral, un microscope braqué sur l'espace sémantique d'un modèle.

Il faut mesurer ce que ça représente. Pendant des années, les grands modèles ont été des boîtes noires : on savait ce qui entrait et ce qui sortait, pas ce qui se passait à l'intérieur. Les autoencodeurs parcimonieux sont la première technique qui permette d'inventorier, à grande échelle, les concepts qu'un modèle a formés. On ne lit pas encore ses pensées. Mais on commence à lire son vocabulaire intérieur, la carte de ses concepts.

Le steering : déplacer un modèle dans son propre espace

Et là, une expérience a frappé les esprits, y compris hors du cercle des spécialistes : Golden Gate Claude. Une fois qu'Anthropic a isolé la feature correspondant au pont du Golden Gate, les chercheurs ont fait quelque chose de simple et de troublant. Ils ont artificiellement forcé cette feature à rester active, fortement, en permanence. Autrement dit, ils ont saisi le modèle et l'ont poussé, de force, dans la région de son espace qui correspond au pont.

Le résultat : le modèle s'est mis à parler du Golden Gate à tout propos. Tu lui demandais une recette de cuisine, il trouvait le moyen d'y faire passer le pont. Tu lui demandais comment il allait, il répondait qu'il se sentait comme un grand pont rouge enjambant la baie. Le concept ne contaminait pas seulement ses réponses : il semblait habiter son identité du moment. C'était à la fois drôle et profond. Drôle, parce que le modèle devenait obsessionnel d'une manière presque attendrissante. Profond, parce que ça démontrait quelque chose de fondamental : les directions de l'espace sémantique ne sont pas que des descriptions passives, ce sont des leviers de contrôle. En déplaçant le modèle dans son espace, on modifie son comportement de façon prévisible et ciblée.

Cette technique, qu'on appelle le steering, le pilotage, a des conséquences sérieuses au-delà de l'amusement. Elle suggère qu'on pourrait, à terme, régler le comportement d'un modèle non plus seulement par l'entraînement ou par les consignes, mais en agissant directement sur sa géométrie interne — renforcer la feature « prudence », atténuer la feature « flagornerie », détecter en temps réel l'activation de la feature « tromperie ». C'est l'une des grandes promesses de l'interprétabilité pour la sécurité des modèles : non plus seulement observer l'espace, mais y intervenir.

L'hypothèse linéaire, et ce qui résiste encore

Tout ce que je viens de décrire repose sur une hypothèse de travail qu'il faut nommer, parce qu'elle est belle et qu'elle n'est pas garantie : l'hypothèse de la représentation linéaire. Elle dit que les concepts correspondent à des directions de l'espace, et que les concepts se combinent en s'additionnant. Ajouter le concept « féminin » à « roi » pour obtenir « reine », c'est une addition de directions. Activer la feature « Golden Gate » par-dessus le reste, c'est une addition. Cette linéarité est ce qui rend l'espace manipulable, lisible, prévisible. Et elle est étonnamment bien vérifiée, dans une large mesure, par les expériences.

Mais elle ne capture pas tout, et c'est important de le dire pour ne pas survendre l'affaire. Certains aspects de ce que fait un modèle ne se réduisent pas à des directions additionnées. Il y a des structures plus riches — des concepts qui s'organisent en cercles, en hiérarchies, en relations qui ne sont pas de simples directions. Il y a des circuits, c'est-à-dire des enchaînements de calculs à travers les couches du modèle, qui transforment l'information de manière non triviale et qu'on commence seulement à cartographier. L'interprétabilité a fait des progrès stupéfiants en deux ou trois ans, mais elle reste face à un objet immense : un modèle a des millions de features et des chemins de calcul d'une complexité qu'on est loin d'avoir épuisée. On a appris à lire des mots de son vocabulaire intérieur ; on ne lit pas encore ses phrases, et encore moins son raisonnement complet.

Pourquoi ce chapitre prépare la question de David

Arrêtons-nous sur ce que ce détour par l'interprétabilité nous apprend, parce qu'il éclaire directement la question du dernier chapitre.

Premièrement, l'espace sémantique d'un modèle est réel et structuré, pas une métaphore commode. On peut y isoler des concepts, les nommer, mesurer leurs directions. La géométrie du sens, dont on parlait abstraitement aux deux premiers chapitres, est devenue un objet d'expérience qu'on dissèque.

Deuxièmement, cet espace est manipulable. Les concepts y sont des directions, les directions s'additionnent, et déplacer le modèle dans son espace change son comportement. Cela donne une réalité tangible à l'idée que « calculer avec du sens » pourrait vouloir dire « calculer avec des directions dans un espace » — l'intuition de Hobbes qu'on va creuser, transposée dans une géométrie qu'on sait désormais lire.

Troisièmement, et c'est la limite qui prépare la nuance finale, cet espace géométrique ne fait pas spontanément tout ce qu'on attend du raisonnement. La linéarité capture l'association, la similarité, la composition simple — mais la logique stricte, la négation, le calcul en plusieurs étapes ne sont pas garantis par la seule géométrie. C'est précisément la tension que Dehaene pointait pour le cerveau, et on la retrouve ici, dans la machine. Au dernier chapitre, on va affronter cette tension de face : qu'est-ce que l'espace sémantique permet réellement de calculer, de planifier, de raisonner — et où l'abduction de Peirce trouve-t-elle, dans cette géométrie, sa place inattendue ?

← Tous les chapitres