Comment les LLM choisissent les marques qu'ils recommandent

Q: Pourquoi ChatGPT recommande certaines marques et pas d'autres ?

ChatGPT sélectionne les marques en fonction de plusieurs facteurs : leur fréquence de mention dans les données d'entraînement, l'autorité des sources qui les citent, la structure sémantique de leur contenu, et la cohérence des informations à travers le web. Ce n'est ni un classement publicitaire ni un algorithme de popularité : c'est un mécanisme de synthèse qui privilégie les sources fiables et facilement extractibles.

Q: Comment faire pour que ma marque soit recommandée par les IA génératives ?

Pour être recommandé par les LLM, il faut travailler sur plusieurs axes : renforcer son autorité de source via des mentions sur des sites de référence, structurer son contenu pour qu'il soit facilement extractible par les modèles (FAQ, définitions claires, schema.org), assurer la cohérence des informations à travers toutes les sources web, et produire du contenu régulièrement mis à jour. C'est la discipline du GEO (Generative Engine Optimization).

Retour au blog

Demandez à ChatGPT de recommander un CRM pour une PME. Observez quelles marques apparaissent. Maintenant demandez-vous : pourquoi celles-là et pas les autres ?

C’est la question que je me pose chaque jour. Depuis que j’audite la visibilité des marques sur les moteurs génératifs, je suis frappé par un constat : la plupart des entreprises n’ont aucune idée de la logique qui se cache derrière les recommandations de ChatGPT, Gemini ou Perplexity. Elles supposent que ça fonctionne comme Google. Ce n’est pas le cas.

Avec 27,7 millions d’utilisateurs mensuels de LLM en France (Médiamétrie, décembre 2025) et 61 % d’entre eux qui demandent des recommandations de produits ou services (Iligo x Media Figaro, 2025), comprendre comment ces modèles sélectionnent les marques n’est plus une curiosité technique. C’est un enjeu business.

Dans cet article, je partage ce que j’ai appris en analysant des centaines de réponses génératives. Pas de formules magiques, pas de stats inventées. Des observations de terrain et des mécanismes vérifiables.

Ce que les LLM ne sont pas

Avant de comprendre comment les LLM choisissent, il faut d’abord défaire quelques idées reçues. Parce que la majorité des malentendus que je rencontre chez mes clients viennent de là.

Pas un moteur de recherche classique

Google affiche une liste de liens. Vous cliquez, vous jugez. Le LLM fait l’inverse : il synthétise une réponse à partir de multiples sources, et c’est lui qui décide quoi retenir. Il n’y a pas de page 1 et de page 2. Il y a les marques qui sont citées et celles qui n’existent pas dans la réponse. Rien entre les deux.

Pas un système de ranking

Sur Google, la position 3 est moins bonne que la position 1, mais elle existe. Dans une réponse de ChatGPT, 79 % des réponses ne citent que 3 à 5 sources (Otterly.AI, 2026). Si vous n’êtes pas dans ce groupe restreint, vous êtes invisible. Point final.

Pas un espace publicitaire

Il n’y a pas (encore, à quelques exceptions expérimentales près) de modèle publicitaire dans les réponses des LLM. Vous ne pouvez pas acheter votre place dans la recommandation de ChatGPT. C’est à la fois un défi et une opportunité : la visibilité se mérite. Elle repose sur des signaux que le modèle juge fiables.

Les facteurs de sélection : pourquoi certaines marques et pas d’autres

J’ai passé des mois à décortiquer les réponses des principaux LLM sur des dizaines de secteurs. Voici les facteurs que j’identifie de manière récurrente.

Autorité de source

Les LLM privilégient les marques citées par des sources elles-mêmes reconnues comme fiables : médias de référence, publications spécialisées, sites institutionnels. C’est un effet de cascade : la confiance se transfère.

Fréquence de mention

Une marque mentionnée souvent et de manière cohérente dans les données d’entraînement du modèle a plus de chances d’être retenue. C’est l’équivalent du « poids » dans les connaissances du LLM.

Structure du contenu

FAQ, listes, définitions explicites, réponses directes aux questions. Un contenu structuré pour être extrait facilement par un modèle est un contenu qui sera cité plus souvent.

Fraîcheur et données structurées

Pour les modèles avec RAG ou navigation web, la fraîcheur du contenu compte. Et le balisage Schema.org (Organization, Product, FAQPage) fournit un cadre machine-readable qui facilite l’extraction.

L’autorité de source : le facteur dominant

Si je devais isoler un seul facteur, ce serait celui-là. Quand j’analyse les réponses de ChatGPT pour des requêtes commerciales, je retrouve systématiquement les marques qui bénéficient d’un écosystème de mentions solide : articles de presse, comparatifs indépendants, pages Wikipedia, forums spécialisés.

Ce n’est pas la quantité de backlinks qui compte — c’est le type de site qui vous mentionne et le contexte de la mention. Un article de deux paragraphes dans un média reconnu pèse plus qu’une centaine de liens dans des annuaires obscurs. Les LLM ne comptent pas les liens : ils évaluent la crédibilité perçue de la source.

La fréquence de mention dans les données d’entraînement

C’est un facteur qu’on sous-estime. Les LLM ont été entraînés sur des corpus massifs de texte : articles, forums, documentation, livres. Une marque qui apparaît fréquemment dans ces données — dans des contextes positifs et variés — est littéralement « imprimée » dans les poids du modèle. Ce n’est pas quelque chose qu’on peut modifier après coup. Mais c’est un rappel brutal : la visibilité IA ne se construit pas en un trimestre. Elle est le résultat d’années de présence en ligne.

Pour les marques plus récentes, c’est une mauvaise nouvelle. Mais elle est tempérée par le facteur suivant.

La structure du contenu : le levier le plus actionnable

J’ai observé un pattern intéressant : des marques relativement peu connues qui apparaissent dans les réponses de LLM parce que leur contenu est parfaitement structuré pour être extrait. Des pages de FAQ bien écrites. Des comparatifs avec des tableaux clairs. Des définitions explicites en début de paragraphe.

Les LLM ne « lisent » pas comme un humain. Ils cherchent des blocs d’information cohérents et autosuffisants qu’ils peuvent intégrer dans leur synthèse. Si votre contenu est un flux de prose sans hiérarchie, aussi bon soit-il d’un point de vue rédactionnel, il sera plus difficile à exploiter pour le modèle.

Concrètement, voici ce qui fonctionne :

Des titres qui sont des questions (le modèle cherche des réponses à des questions)
Des premiers paragraphes qui répondent directement, avant de développer
Des listes à puces pour les énumérations (plus extractibles qu’une phrase longue)
Des données factuelles sourcées (le modèle privilégie ce qu’il peut recouper)

Fraîcheur et données structurées

Pour les modèles qui utilisent le RAG — et aujourd’hui la plupart le font — la date de publication et de mise à jour du contenu est un signal. Un article de 2024 sur un sujet qui évolue vite sera défavorisé face à un contenu mis à jour en 2026.

Quant au balisage Schema.org, il joue un rôle que beaucoup de marketeurs ignorent. Quand vous balisez correctement votre page avec les types Organization, Product ou FAQPage, vous offrez au modèle un cadre structuré pour extraire vos informations. Ce n’est pas un facteur magique, mais c’est un accélérateur. Et dans un environnement où 3 à 5 sources sont citées par réponse, chaque avantage marginal compte.

Ce que j’observe en pratique

La théorie, c’est bien. Mais ce que je vois chaque semaine en auditant des marques raconte une histoire plus nuancée.

Première observation : la cohérence entre les sources est un facteur sous-estimé. Quand une marque dit une chose sur son site, une autre sur ses réseaux sociaux, et que les articles de presse racontent encore autre chose, le LLM hésite. Il a tendance à privilégier les marques dont le message est stable et uniforme à travers les sources. J’ai vu des entreprises avec une forte notoriété être repoussées dans les réponses parce que les informations à leur sujet étaient contradictoires d’une source à l’autre.

Deuxième observation : le contexte de la mention compte autant que la mention elle-même. Être cité dans un comparatif « les 5 meilleurs outils de... » a un impact différent qu’être cité dans un article généraliste. Les LLM semblent donner plus de poids aux mentions contextualisées, où la marque est associée à un cas d’usage précis ou à une expertise identifiée.

Troisième observation : les réponses varient significativement d’un LLM à l’autre. J’ai vu des marques très bien citées par Perplexity mais totalement absentes de Gemini pour la même requête. Chaque modèle a ses propres données d’entraînement, ses propres sources RAG, sa propre logique de synthèse. Optimiser pour un seul LLM est une erreur stratégique.

Quatrième observation : le SEO classique ne suffit pas. Et c’est là que ça devient intéressant. Selon les données du secteur (GenOptima), environ 80 % des sources citées par ChatGPT ne figurent pas dans le top 100 de Google pour la même requête. Le LLM puise dans un réservoir de sources différent. Être premier sur Google ne garantit rien sur ChatGPT. Et inversement : des sites invisibles sur Google peuvent être cités par les IA.

Le GEO n’est pas du SEO avec un nouveau nom. C’est une discipline distincte, avec ses propres règles, ses propres signaux, et ses propres gagnants.

Le rôle des sources web dans le RAG

Pour comprendre complètement comment les LLM sélectionnent les marques, il faut distinguer deux mécanismes qui coexistent.

Les connaissances « paramétriques »

Ce sont les informations encodées dans les poids du modèle lors de l’entraînement. Elles sont figées à une date de coupure. Si votre marque était bien présente en ligne avant cette date, elle est littéralement intégrée dans le modèle. Sinon, elle n’existe pas pour lui — du moins pas via ce canal.

Les connaissances « récupérées » (RAG)

C’est ici que les choses deviennent plus dynamiques. Quand ChatGPT active la navigation web, quand Perplexity lance ses recherches, quand Gemini puise dans l’index Google, ils récupèrent des pages en temps réel et les intègrent à leur réponse.

Perplexity est le cas le plus transparent : il affiche systématiquement les sources qu’il a consultées, avec des liens cliquables. C’est précieux pour comprendre sa logique de sélection. ChatGPT, quand il browse le web, cite également ses sources, mais de manière moins systématique.

Ce que j’observe, c’est que le RAG crée une seconde chance pour les marques qui n’ont pas bénéficié d’une forte présence dans les données d’entraînement. Si votre contenu est récent, bien structuré, et publié sur des sources que les systèmes RAG interrogent, vous pouvez entrer dans la boucle de recommandation même sans historique massif.

Mais attention : le RAG a ses propres biais. Les systèmes de récupération tendent à privilégier les mêmes sources que les moteurs de recherche classiques utilisent comme références. Les sites avec une forte autorité de domaine restent favorisés, même dans le RAG.

Ce que ça change pour les marques, concrètement

Si vous avez lu jusqu’ici, vous avez compris l’essentiel : les règles du jeu ont changé. Voici ce que ça implique dans la pratique.

Votre site web ne suffit plus

Même un site parfaitement optimisé pour le SEO peut être invisible des LLM si personne d’autre n’en parle. La visibilité IA se construit autant sur votre site que sur l’ensemble des sources qui vous mentionnent. Articles de presse, forums spécialisés, avis clients, publications sectorielles : c’est l’écosystème complet qui compte.

La stratégie de contenu doit évoluer

Produire du contenu « SEO-friendly » ne suffit plus. Il faut produire du contenu « LLM-extractible » : des réponses directes, des formats structurés, des informations factuelles vérifiables. Pas du contenu gonflé pour atteindre un nombre de mots. Du contenu dense, précis, utile.

La mesure change aussi

Suivre son positionnement Google ne donne aucune indication sur sa visibilité IA. Il faut mettre en place un suivi spécifique : interroger régulièrement les LLM avec des requêtes stratégiques, analyser les citations, suivre l’évolution dans le temps. C’est précisément ce que nous faisons chez Beeleven avec notre méthodologie d’audit.

Le temps long est un allié

Les marques qui seront recommandées par les LLM dans deux ans sont celles qui construisent leur autorité aujourd’hui. Chaque publication de qualité, chaque mention dans un média de référence, chaque mise à jour de contenu est un signal supplémentaire qui s’accumule. Le GEO récompense la constance, pas les raccourcis.

Questions fréquentes

Pourquoi ChatGPT recommande certaines marques et pas d’autres ?

ChatGPT sélectionne les marques en fonction de leur autorité de source, de leur fréquence de mention dans les données d’entraînement, de la structure de leur contenu et de la cohérence des informations à travers le web. Ce n’est ni un classement publicitaire ni un algorithme de popularité : c’est un mécanisme de synthèse qui privilégie les sources fiables et facilement extractibles.

Les LLM utilisent-ils les mêmes sources que Google ?

Non. Selon les données du secteur (GenOptima), environ 80 % des sources citées par ChatGPT ne figurent pas dans le top 100 de Google pour la même requête. Les LLM combinent les connaissances issues de leur entraînement avec des sources récupérées en temps réel via le RAG, ce qui produit un écosystème de citations très différent du SEO classique.

Comment faire pour que ma marque soit recommandée par les IA ?

Il faut travailler sur plusieurs axes : renforcer son autorité de source via des mentions sur des sites de référence, structurer son contenu pour qu’il soit facilement extractible par les modèles (FAQ, définitions claires, balisage Schema.org), assurer la cohérence des informations à travers toutes les sources web, et produire du contenu régulièrement mis à jour. C’est la discipline du GEO (Generative Engine Optimization).

Votre marque est-elle visible ?

Découvrez ce que les LLM disent de vous

Notre audit de visibilité IA analyse les réponses de ChatGPT, Gemini, Perplexity et Claude pour vos requêtes stratégiques. Vous saurez exactement où vous en êtes.

Demander un audit

Comment les LLM choisissent les marques qu’ils recommandent

Ce que les LLM ne sont pas

Pas un moteur de recherche classique

Pas un système de ranking

Pas un espace publicitaire

Les facteurs de sélection : pourquoi certaines marques et pas d’autres

L’autorité de source : le facteur dominant

La fréquence de mention dans les données d’entraînement

La structure du contenu : le levier le plus actionnable

Fraîcheur et données structurées

Ce que j’observe en pratique

Le rôle des sources web dans le RAG

Les connaissances « paramétriques »

Les connaissances « récupérées » (RAG)

Ce que ça change pour les marques, concrètement

Votre site web ne suffit plus

La stratégie de contenu doit évoluer

La mesure change aussi

Le temps long est un allié

Questions fréquentes

Articles liés

Découvrez ce que les LLM disent de vous