Demandez à ChatGPT de recommander un CRM pour une PME. Observez quelles marques apparaissent. Maintenant demandez-vous : pourquoi celles-là et pas les autres ?
C’est la question que je me pose chaque jour. Depuis que j’audite la visibilité des marques sur les moteurs génératifs, je suis frappé par un constat : la plupart des entreprises n’ont aucune idée de la logique qui se cache derrière les recommandations de ChatGPT, Gemini ou Perplexity. Elles supposent que ça fonctionne comme Google. Ce n’est pas le cas.
Avec 27,7 millions d’utilisateurs mensuels de LLM en France (Médiamétrie, décembre 2025) et 61 % d’entre eux qui demandent des recommandations de produits ou services (Iligo x Media Figaro, 2025), comprendre comment ces modèles sélectionnent les marques n’est plus une curiosité technique. C’est un enjeu business.
Dans cet article, je partage ce que j’ai appris en analysant des centaines de réponses génératives. Pas de formules magiques, pas de stats inventées. Des observations de terrain et des mécanismes vérifiables.
Ce que les LLM ne sont pas
Avant de comprendre comment les LLM choisissent, il faut d’abord défaire quelques idées reçues. Parce que la majorité des malentendus que je rencontre chez mes clients viennent de là.
Pas un moteur de recherche classique
Google affiche une liste de liens. Vous cliquez, vous jugez. Le LLM fait l’inverse : il synthétise une réponse à partir de multiples sources, et c’est lui qui décide quoi retenir. Il n’y a pas de page 1 et de page 2. Il y a les marques qui sont citées et celles qui n’existent pas dans la réponse. Rien entre les deux.
Pas un système de ranking
Sur Google, la position 3 est moins bonne que la position 1, mais elle existe. Dans une réponse de ChatGPT, 79 % des réponses ne citent que 3 à 5 sources (Otterly.AI, 2026). Si vous n’êtes pas dans ce groupe restreint, vous êtes invisible. Point final.
Pas un espace publicitaire
Il n’y a pas (encore, à quelques exceptions expérimentales près) de modèle publicitaire dans les réponses des LLM. Vous ne pouvez pas acheter votre place dans la recommandation de ChatGPT. C’est à la fois un défi et une opportunité : la visibilité se mérite. Elle repose sur des signaux que le modèle juge fiables.
Les facteurs de sélection : pourquoi certaines marques et pas d’autres
J’ai passé des mois à décortiquer les réponses des principaux LLM sur des dizaines de secteurs. Voici les facteurs que j’identifie de manière récurrente.
L’autorité de source : le facteur dominant
Si je devais isoler un seul facteur, ce serait celui-là. Quand j’analyse les réponses de ChatGPT pour des requêtes commerciales, je retrouve systématiquement les marques qui bénéficient d’un écosystème de mentions solide : articles de presse, comparatifs indépendants, pages Wikipedia, forums spécialisés.
Ce n’est pas la quantité de backlinks qui compte — c’est le type de site qui vous mentionne et le contexte de la mention. Un article de deux paragraphes dans un média reconnu pèse plus qu’une centaine de liens dans des annuaires obscurs. Les LLM ne comptent pas les liens : ils évaluent la crédibilité perçue de la source.
La fréquence de mention dans les données d’entraînement
C’est un facteur qu’on sous-estime. Les LLM ont été entraînés sur des corpus massifs de texte : articles, forums, documentation, livres. Une marque qui apparaît fréquemment dans ces données — dans des contextes positifs et variés — est littéralement « imprimée » dans les poids du modèle. Ce n’est pas quelque chose qu’on peut modifier après coup. Mais c’est un rappel brutal : la visibilité IA ne se construit pas en un trimestre. Elle est le résultat d’années de présence en ligne.
Pour les marques plus récentes, c’est une mauvaise nouvelle. Mais elle est tempérée par le facteur suivant.
La structure du contenu : le levier le plus actionnable
J’ai observé un pattern intéressant : des marques relativement peu connues qui apparaissent dans les réponses de LLM parce que leur contenu est parfaitement structuré pour être extrait. Des pages de FAQ bien écrites. Des comparatifs avec des tableaux clairs. Des définitions explicites en début de paragraphe.
Les LLM ne « lisent » pas comme un humain. Ils cherchent des blocs d’information cohérents et autosuffisants qu’ils peuvent intégrer dans leur synthèse. Si votre contenu est un flux de prose sans hiérarchie, aussi bon soit-il d’un point de vue rédactionnel, il sera plus difficile à exploiter pour le modèle.
Concrètement, voici ce qui fonctionne :
- Des titres qui sont des questions (le modèle cherche des réponses à des questions)
- Des premiers paragraphes qui répondent directement, avant de développer
- Des listes à puces pour les énumérations (plus extractibles qu’une phrase longue)
- Des données factuelles sourcées (le modèle privilégie ce qu’il peut recouper)
Fraîcheur et données structurées
Pour les modèles qui utilisent le RAG — et aujourd’hui la plupart le font — la date de publication et de mise à jour du contenu est un signal. Un article de 2024 sur un sujet qui évolue vite sera défavorisé face à un contenu mis à jour en 2026.
Quant au balisage Schema.org, il joue un rôle que beaucoup de marketeurs ignorent. Quand vous balisez correctement votre page avec les types Organization, Product ou FAQPage, vous offrez au modèle un cadre structuré pour extraire vos informations. Ce n’est pas un facteur magique, mais c’est un accélérateur. Et dans un environnement où 3 à 5 sources sont citées par réponse, chaque avantage marginal compte.
Ce que j’observe en pratique
La théorie, c’est bien. Mais ce que je vois chaque semaine en auditant des marques raconte une histoire plus nuancée.
Première observation : la cohérence entre les sources est un facteur sous-estimé. Quand une marque dit une chose sur son site, une autre sur ses réseaux sociaux, et que les articles de presse racontent encore autre chose, le LLM hésite. Il a tendance à privilégier les marques dont le message est stable et uniforme à travers les sources. J’ai vu des entreprises avec une forte notoriété être repoussées dans les réponses parce que les informations à leur sujet étaient contradictoires d’une source à l’autre.
Deuxième observation : le contexte de la mention compte autant que la mention elle-même. Être cité dans un comparatif « les 5 meilleurs outils de... » a un impact différent qu’être cité dans un article généraliste. Les LLM semblent donner plus de poids aux mentions contextualisées, où la marque est associée à un cas d’usage précis ou à une expertise identifiée.
Troisième observation : les réponses varient significativement d’un LLM à l’autre. J’ai vu des marques très bien citées par Perplexity mais totalement absentes de Gemini pour la même requête. Chaque modèle a ses propres données d’entraînement, ses propres sources RAG, sa propre logique de synthèse. Optimiser pour un seul LLM est une erreur stratégique.
Quatrième observation : le SEO classique ne suffit pas. Et c’est là que ça devient intéressant. Selon les données du secteur (GenOptima), environ 80 % des sources citées par ChatGPT ne figurent pas dans le top 100 de Google pour la même requête. Le LLM puise dans un réservoir de sources différent. Être premier sur Google ne garantit rien sur ChatGPT. Et inversement : des sites invisibles sur Google peuvent être cités par les IA.
Le GEO n’est pas du SEO avec un nouveau nom. C’est une discipline distincte, avec ses propres règles, ses propres signaux, et ses propres gagnants.
Le rôle des sources web dans le RAG
Pour comprendre complètement comment les LLM sélectionnent les marques, il faut distinguer deux mécanismes qui coexistent.
Les connaissances « paramétriques »
Ce sont les informations encodées dans les poids du modèle lors de l’entraînement. Elles sont figées à une date de coupure. Si votre marque était bien présente en ligne avant cette date, elle est littéralement intégrée dans le modèle. Sinon, elle n’existe pas pour lui — du moins pas via ce canal.
Les connaissances « récupérées » (RAG)
C’est ici que les choses deviennent plus dynamiques. Quand ChatGPT active la navigation web, quand Perplexity lance ses recherches, quand Gemini puise dans l’index Google, ils récupèrent des pages en temps réel et les intègrent à leur réponse.
Perplexity est le cas le plus transparent : il affiche systématiquement les sources qu’il a consultées, avec des liens cliquables. C’est précieux pour comprendre sa logique de sélection. ChatGPT, quand il browse le web, cite également ses sources, mais de manière moins systématique.
Ce que j’observe, c’est que le RAG crée une seconde chance pour les marques qui n’ont pas bénéficié d’une forte présence dans les données d’entraînement. Si votre contenu est récent, bien structuré, et publié sur des sources que les systèmes RAG interrogent, vous pouvez entrer dans la boucle de recommandation même sans historique massif.
Mais attention : le RAG a ses propres biais. Les systèmes de récupération tendent à privilégier les mêmes sources que les moteurs de recherche classiques utilisent comme références. Les sites avec une forte autorité de domaine restent favorisés, même dans le RAG.
Ce que ça change pour les marques, concrètement
Si vous avez lu jusqu’ici, vous avez compris l’essentiel : les règles du jeu ont changé. Voici ce que ça implique dans la pratique.
Votre site web ne suffit plus
Même un site parfaitement optimisé pour le SEO peut être invisible des LLM si personne d’autre n’en parle. La visibilité IA se construit autant sur votre site que sur l’ensemble des sources qui vous mentionnent. Articles de presse, forums spécialisés, avis clients, publications sectorielles : c’est l’écosystème complet qui compte.
La stratégie de contenu doit évoluer
Produire du contenu « SEO-friendly » ne suffit plus. Il faut produire du contenu « LLM-extractible » : des réponses directes, des formats structurés, des informations factuelles vérifiables. Pas du contenu gonflé pour atteindre un nombre de mots. Du contenu dense, précis, utile.
La mesure change aussi
Suivre son positionnement Google ne donne aucune indication sur sa visibilité IA. Il faut mettre en place un suivi spécifique : interroger régulièrement les LLM avec des requêtes stratégiques, analyser les citations, suivre l’évolution dans le temps. C’est précisément ce que nous faisons chez Beeleven avec notre méthodologie d’audit.
Le temps long est un allié
Les marques qui seront recommandées par les LLM dans deux ans sont celles qui construisent leur autorité aujourd’hui. Chaque publication de qualité, chaque mention dans un média de référence, chaque mise à jour de contenu est un signal supplémentaire qui s’accumule. Le GEO récompense la constance, pas les raccourcis.
Questions fréquentes
ChatGPT sélectionne les marques en fonction de leur autorité de source, de leur fréquence de mention dans les données d’entraînement, de la structure de leur contenu et de la cohérence des informations à travers le web. Ce n’est ni un classement publicitaire ni un algorithme de popularité : c’est un mécanisme de synthèse qui privilégie les sources fiables et facilement extractibles.
Non. Selon les données du secteur (GenOptima), environ 80 % des sources citées par ChatGPT ne figurent pas dans le top 100 de Google pour la même requête. Les LLM combinent les connaissances issues de leur entraînement avec des sources récupérées en temps réel via le RAG, ce qui produit un écosystème de citations très différent du SEO classique.
Il faut travailler sur plusieurs axes : renforcer son autorité de source via des mentions sur des sites de référence, structurer son contenu pour qu’il soit facilement extractible par les modèles (FAQ, définitions claires, balisage Schema.org), assurer la cohérence des informations à travers toutes les sources web, et produire du contenu régulièrement mis à jour. C’est la discipline du GEO (Generative Engine Optimization).
Découvrez ce que les LLM disent de vous
Notre audit de visibilité IA analyse les réponses de ChatGPT, Gemini, Perplexity et Claude pour vos requêtes stratégiques. Vous saurez exactement où vous en êtes.
Demander un audit