S1 — La géométrie du sens

▶ Écouter ce chapitre (≈ 15–20 min)

Tu as déjà fait cette expérience sans peut-être la nommer. Quand tu interroges ta bibliothèque philosophique sur le NAS et que la recherche te ramène un passage de Peirce que tu n'avais pas indexé sous ce mot-clé, mais qui parle exactement de la même chose — ce moment où la machine trouve par le sens et non par le mot, c'est l'espace sémantique qui travaille. Ce chapitre ouvre le capot de cette intuition. Pas avec des équations : avec une idée géométrique, une seule, dont tout le reste découle.

L'idée tient en une phrase : le sens d'un mot peut être représenté par une position dans un espace. Pas un espace à deux ou trois dimensions comme celui où tu te déplaces, mais un espace à plusieurs centaines, voire plusieurs milliers de dimensions. Et dans cet espace, deux mots proches de sens occupent des positions proches. La distance géométrique devient une mesure de parenté sémantique. C'est tout. Mais cette idée, quand on la déplie, change la manière dont on pense le langage, la connaissance, et peut-être le raisonnement lui-même.

D'où vient cette idée : on connaît un mot par ses fréquentations

Avant les machines, des linguistes avaient déjà posé le principe. Dans les années cinquante, Zellig Harris et John Rupert Firth formulent ce qu'on appelle l'hypothèse distributionnelle. Firth la résume d'une formule devenue célèbre : « on reconnaît un mot à la compagnie qu'il fréquente ». Autrement dit, le sens d'un mot n'est pas une essence cachée dans le mot ; il se révèle dans la manière dont ce mot se distribue dans la langue, dans les contextes où il apparaît.

Prends le mot « chien ». Tu ne sais pas ce qu'il veut dire parce qu'une définition serait gravée à l'intérieur du mot. Tu le sais parce que tu l'as rencontré mille fois à côté de « aboyer », « laisse », « fidèle », « os », « museau », « maître ». Le mot « chat » fréquente une compagnie qui se recoupe en partie — « museau », « fidèle » moins, « ronronner » davantage. Et « table » fréquente une tout autre compagnie : « bois », « repas », « pied », « nappe ». L'idée distributionnelle dit alors : si deux mots fréquentent à peu près les mêmes voisins, ils ont à peu près le même sens.

C'est une idée à la fois modeste et radicale. Modeste, parce qu'elle renonce à chercher le sens « en soi » du mot. Radicale, parce qu'elle rend le sens mesurable. Si je compte, sur un immense corpus de textes, quels mots apparaissent dans le voisinage de quels autres mots, j'obtiens pour chaque mot un profil de fréquentation. Et deux profils similaires signalent deux sens similaires. Le sens devient une affaire de statistique de cooccurrence.

Du profil de fréquentation au vecteur

Voilà comment on passe de cette intuition à une géométrie. Imagine que tu retiennes les dix mille mots les plus courants d'une langue. Pour le mot « chien », tu construis une longue liste : combien de fois « chien » apparaît près de « aboyer », combien de fois près de « table », combien de fois près de « fidèle », et ainsi de suite pour les dix mille mots. Tu obtiens une liste de dix mille nombres. Cette liste, en mathématiques, s'appelle un vecteur. Et un vecteur, c'est simplement les coordonnées d'un point dans un espace — ici, un espace à dix mille dimensions.

Tu ne peux pas visualiser dix mille dimensions, personne ne le peut. Mais tu peux raisonner par analogie avec deux dimensions. Sur une feuille, un point a deux coordonnées, horizontale et verticale. Deux points proches sur la feuille ont des coordonnées proches. La distance entre eux se calcule, tu l'as apprise au collège. Eh bien dans un espace à dix mille dimensions, c'est exactement pareil : chaque mot est un point, chaque point a dix mille coordonnées, et on sait calculer la distance entre deux points. La seule chose qu'on perd, c'est la possibilité de voir. Tout le reste — la proximité, la distance, les directions — continue de fonctionner.

Dans cet espace, « chien » et « chat » se retrouvent voisins, parce que leurs profils de fréquentation se ressemblent. « Table » est loin, dans une autre région. La géométrie a capturé quelque chose du sens. C'est le premier miracle, et c'est un miracle purement comptable : on n'a fait que compter des cooccurrences.

Word2vec et la fameuse arithmétique des analogies

En 2013, une équipe de Google menée par Tomáš Mikolov publie une méthode appelée word2vec qui rend cette idée à la fois plus efficace et spectaculaire. Au lieu de compter brutalement les cooccurrences, word2vec entraîne un petit réseau de neurones à une tâche minuscule : prédire les mots voisins d'un mot donné. En apprenant cette tâche sur des milliards de mots, le réseau est forcé de fabriquer, pour chaque mot, un vecteur — plus compact, quelques centaines de dimensions seulement — qui encode ce qu'il faut savoir pour deviner le voisinage. Ces vecteurs compacts, on les appelle des embeddings, des plongements : le mot est plongé dans l'espace.

Et là, on découvre quelque chose de troublant. Non seulement les mots proches de sens sont proches dans l'espace, mais les directions de l'espace portent du sens. Le déplacement qui mène de « homme » à « femme » est à peu près le même que celui qui mène de « roi » à « reine », ou de « acteur » à « actrice ». La différence des genres est devenue une direction constante dans l'espace. D'où la formule devenue emblématique : si tu prends le vecteur de « roi », que tu lui retires le vecteur de « homme » et que tu lui ajoutes celui de « femme », tu arrives dans une région de l'espace dont le point le plus proche est… « reine ». Roi moins homme plus femme égale reine. L'analogie est devenue une opération arithmétique.

Il faut être honnête sur ce résultat, parce qu'il a été beaucoup enjolivé. Ça marche pour certaines analogies, surtout les plus régulières : les genres, les pluriels, les capitales de pays, les conjugaisons. Ça marche beaucoup moins bien dès qu'on s'éloigne de ces régularités très présentes dans les données. Et le calcul triche un peu : par convention, on exclut les trois mots de départ du résultat, sinon « roi moins homme plus femme » retomberait souvent sur « roi » lui-même. Donc la légende d'une algèbre parfaite du sens est exagérée. Mais le fait brut demeure, et il est profond : dans cet espace, certaines relations conceptuelles correspondent à des déplacements géométriques réguliers. Le sens n'est pas seulement une position. C'est aussi une structure de directions. Retiens cette idée, on y reviendra quand on parlera de calcul et de raisonnement à la fin du module.

Les espaces conceptuels de Gärdenfors : une troisième voie

Avant d'aller plus loin dans les machines, il faut faire un détour par un philosophe, parce qu'il aide à comprendre pourquoi cette histoire d'espace n'est pas qu'une astuce technique. Le Suédois Peter Gärdenfors a proposé, dans un livre de 2000, l'idée d'espaces conceptuels. Sa thèse : entre deux manières traditionnelles de penser la cognition, il y a une troisième voie qu'on néglige.

La première manière, c'est l'approche symbolique : penser, ce serait manipuler des symboles selon des règles, comme en logique. Un concept est une étiquette, et raisonner c'est appliquer des règles à ces étiquettes. La seconde manière, c'est l'approche connexionniste : penser, ce serait l'activité d'un réseau de neurones, des nombres qui se propagent, sans symboles explicites. Gärdenfors dit : il manque un niveau intermédiaire, le niveau géométrique. Entre les symboles abstraits et les neurones bruts, il y a les espaces conceptuels, où les concepts ont une forme.

Son exemple le plus parlant est la couleur. La couleur se représente naturellement dans un espace à quelques dimensions : la teinte, la saturation, la luminosité. Et dans cet espace, le concept « rouge » n'est pas un point, c'est une région, un volume. Une région qui a une propriété remarquable : elle est convexe. Convexe veut dire que si tu prends deux nuances qui sont du rouge, toute nuance située entre les deux est aussi du rouge. Il n'y a pas de trou. Gärdenfors fait l'hypothèse que les concepts naturels, en général, correspondent à des régions convexes dans un espace de qualités bien choisi. Cette convexité expliquerait pourquoi nos concepts sont apprenables, communicables, stables.

Pourquoi ce détour compte pour toi. Parce que les espaces sémantiques des machines d'aujourd'hui sont une réalisation, partielle et imparfaite, de cette intuition. Les embeddings donnent une forme géométrique aux concepts. La question de savoir si les concepts y sont « convexes », bien découpés, ou au contraire enchevêtrés et brouillés, est précisément une des grandes questions ouvertes de l'interprétabilité, qu'on verra au chapitre trois. Gärdenfors a posé le cadre philosophique vingt ans avant que les machines ne le peuplent.

Le tournant contextuel : un mot n'a plus un seul vecteur

Jusqu'ici, dans tout ce que j'ai décrit, chaque mot a un vecteur, un seul, fixe. C'est la limite de word2vec, et c'est une vraie limite. Pense au mot « avocat ». Dans « l'avocat a plaidé », c'est un homme de loi. Dans « un avocat bien mûr », c'est un fruit. Word2vec est obligé de donner à « avocat » un vecteur unique, qui est une sorte de moyenne brouillée des deux sens. Le mot est figé, alors que son sens dépend du contexte.

Le tournant majeur, celui qui mène aux modèles que tu utilises tous les jours, c'est l'embedding contextuel. À partir de 2018, avec des modèles comme BERT puis tous les Transformers, le vecteur d'un mot n'est plus fixe : il est calculé à la volée, en fonction de la phrase entière. « Avocat » dans la phrase du tribunal reçoit une position dans l'espace ; « avocat » dans la phrase de la salade reçoit une autre position, ailleurs. Le même mot, deux points différents, selon le contexte. Le sens n'est plus attaché au mot dans un dictionnaire ; il est produit dynamiquement par la phrase.

C'est exactement ce que fait BGE-M3, le modèle qui calcule tes embeddings quand Weaviate indexe un passage. Quand tu lui donnes un chunk de Peirce, il ne regarde pas chaque mot isolément. Il lit le passage entier et produit un vecteur qui résume le sens de ce passage en contexte. Deux passages qui parlent de la même idée avec des mots différents tomberont proches dans l'espace. C'est pourquoi ta recherche trouve par le sens. Le sens a été transformé en position, et la recherche n'est plus qu'un calcul de distance.

Ce que l'espace n'est pas : trois précautions

Avant de clore, trois précautions, parce que la métaphore de l'espace est si belle qu'elle peut tromper.

Première précaution : l'espace n'est pas rangé comme on l'imagine. On se figure volontiers un espace propre, où chaque dimension aurait une signification claire — une dimension pour le genre, une pour la taille, une pour l'animalité. La réalité est beaucoup plus enchevêtrée. Les significations sont étalées, mélangées, réparties sur des combinaisons de dimensions. C'est tout le problème qu'on appelle la superposition, et c'est le sujet du chapitre trois. L'espace est plus comme un grenier richement informé qu'une bibliothèque bien classée.

Deuxième précaution : les distances sont trompeuses si on ne fait pas attention. Dans ces espaces, on ne mesure presque jamais la distance « à vol d'oiseau » habituelle. On mesure plutôt l'angle entre les vecteurs, ce qu'on appelle la similarité cosinus : deux vecteurs qui pointent dans la même direction sont jugés proches, même si l'un est plus « long » que l'autre. Et les espaces réels souffrent d'un défaut appelé anisotropie : les vecteurs ont tendance à s'agglutiner dans un cône étroit de l'espace, ce qui fausse les mesures de proximité si on n'y prend garde. La géométrie est réelle, mais elle est déformée.

Troisième précaution : le nombre de dimensions affichées n'est pas le nombre de dimensions utiles. Un embedding BGE-M3 a mille vingt-quatre dimensions sur le papier. Mais le nombre de directions réellement porteuses d'information, la dimension « intrinsèque » de l'espace, est souvent bien plus faible. L'information vit sur une sorte de surface chiffonnée à l'intérieur du grand espace, pas dans tout le volume. Garder ça en tête évite de sur-interpréter le chiffre des dimensions.

Ce qu'il faut retenir

Une idée unique structure tout ce module : le sens peut être représenté comme une position dans un espace de grande dimension, où la proximité géométrique mesure la parenté sémantique. Cette idée descend de l'hypothèse distributionnelle — on connaît un mot par ses fréquentations — et elle s'est réalisée d'abord avec des vecteurs fixes, word2vec et ses analogies arithmétiques, puis avec des vecteurs contextuels, ceux des Transformers et de BGE-M3, où le sens d'un mot est recalculé selon la phrase. Le philosophe Gärdenfors avait pressenti que ce niveau géométrique manquait entre le symbole et le neurone. Mais l'espace réel est enchevêtré, déformé, et plus petit qu'il n'en a l'air.

Dans le prochain chapitre, on quitte les machines pour le cerveau. Parce que la question qui doit déjà te démanger, c'est celle-ci : est-ce que notre tête, elle aussi, range le sens dans un espace ? Et c'est là que Dehaene et les neurosciences entrent en scène.

← Tous les chapitres