CiteableTous les guides

Guide

Comment les moteurs IA choisissent-ils les sites qu'ils citent ?

Mis à jour · 5 juillet 2026 — Joffrey Bonifay

Quand ChatGPT, Perplexity, Gemini ou Claude répondent à une question, ils citent une poignée de sources — rarement plus de trois ou quatre. Comment ces sources sont-elles choisies ? Voici ce qu'on sait, mécanisme par mécanisme, chiffres et études à l'appui.

Comment les moteurs IA décident-ils quels sites citer ?

En deux étapes. D'abord la récupération: le moteur rassemble des pages candidates, soit depuis un index de recherche (ChatGPT s'appuie largement sur Bing, Gemini sur Google), soit en allant chercher les pages en direct au moment de répondre. À ce stade, la visibilité classique compte : ton site doit être crawlable, indexé et lisible.

Ensuite la sélection : le modèle lit les pages récupérées et choisit les passages qui répondent le mieux à la question, puis cite leurs sources. Cette étape se joue au niveau du passage, pas du site — le modèle cite le paragraphe qui répond, pas le domaine le plus connu. Être accessible te fait entrer dans le pool de candidats ; avoir des passages autonomes qui répondent directement transforme la candidature en citation. Rate la première étape et tu es invisible ; rate la seconde et tu es lu mais jamais cité.

Pourquoi être cité compte-t-il autant maintenant ?

Parce que les clics migrent des liens vers les réponses, et les chiffres sont raides. Seer Interactive a mesuré le taux de clic organique sur plus de 3 000 requêtes informationnelles : quand un AI Overview de Google est présent, le CTR organique chute de 61 %. Ahrefs a mesuré le même effet sur le premier résultat : 58 % de clics en moins. Le Pew Research Centerobserve que les utilisateurs cliquent environ deux fois moins sur un lien classique quand un résumé IA s'affiche.

Le revers est l'opportunité : les mêmes données Seer montrent que les marques citées dans les réponses IA obtiennent environ 35 % de clics organiques en plus. Le trafic ne disparaît pas uniformément — il est redirigé vers la poignée de sources que les moteurs citent. Le jeu n'est plus d'être dans dix liens bleus : c'est d'être la source de la réponse.

Quel type de contenu les moteurs IA préfèrent-ils citer ?

La meilleure preuve publique est l'étude GEO(Aggarwal et al., KDD 2024), qui a testé neuf stratégies d'optimisation sur 10 000 requêtes envoyées à des moteurs génératifs. Les gagnantes sont concrètes : ajouter des statistiquesaméliore la visibilité d'une source d'environ 41 %, ajouter des citations de sourcesd'environ 28 %, et référencer des sources externes crédibles produit aussi des gains nets — jusqu'à 30-40 % combinés, avec le plus gros effet pour les sites qui ne sont pas déjà premiers. Le bourrage de mots-clés n'apporte rien ou dégrade.

Le motif derrière ces chiffres : les moteurs favorisent les passages précis, vérifiables et autonomes— une affirmation avec un chiffre et une source se cite avec plus de confiance qu'une phrase marketing vague. Écris des paragraphes qui répondent chacun à une question, directement, avec des preuves : c'est ce que cherche l'étape de sélection. (Ce guide-même est écrit dans ce format.)

Les signaux SEO classiques comptent-ils encore ?

Oui, à l'étape de récupération — avec une nuance importante.Les moteurs IA découvrent surtout le contenu via des index de recherche et leurs propres crawlers, donc les fondamentaux conditionnent tout : pages crawlables, indexation, titres corrects, HTML rendu côté serveur (plusieurs crawlers IA n'exécutent pas ou peu le JavaScript), temps de chargement raisonnables.

La nuance : la sélection se joue au niveau du passage, donc l'autorité de domaine pèse moins qu'en SEO classique. Un petit site dont le paragraphe répond directement peut être cité devant un gros site dont la page ne fait que mentionner le sujet — c'est l'opportunité pour les indépendants et les PME. Attention au sens inverse : bloquer les crawlers IA dans robots.txt te retire entièrement du pool. GPTBot, ClaudeBot, PerplexityBot et Google-Extended obéissent chacun à leur user-agent, et beaucoup de sites les bloquent sans le savoir.

Que changer concrètement sur ton site pour être plus cité ?

Cinq choses, par ordre d'effort croissant. Un : autorise explicitement les crawlers IA dans ton robots.txt — une ligne par bot. Deux : publie un llms.txt à la racine, pour que les moteurs disposent d'un résumé propre de qui tu es. Trois : ajoute des données structurées — un balisage Q&A au format schema.org (JSON-LD) sur tes pages clés.

Quatre : restructure ces pages en questions avec des réponses directes et autonomes d'environ 40 à 160 mots, avec des faits, des chiffres et des dates réels. Cinq : affiche une date de mise à jour visible et un dateModified exact — la fraîcheur est un signal que les moteurs utilisent. Les trois premières étapes sont mécaniques et rapides ; les deux dernières sont éditoriales et font la différence durable.

Peut-on garantir d'être cité par les IA ?

Non — et méfie-toi de quiconque le promet.Personne ne contrôle ChatGPT, Perplexity, Gemini ou Claude : les réponses varient selon la question, le jour et le moteur, et les critères évoluent. Ce que tu contrôles, c'est d'être dans le pool de candidats et d'être la source la plus facile à citer — les deux étapes décrites plus haut.

Les changements mécaniques (robots.txt, llms.txt, balisage schema.org) prennent effet dès que les moteurs re-crawlent ton site, typiquement de quelques jours à quelques semaines. Pour mesurer, fais simple : pose aux moteurs les questions que tes clients posent réellement, et regarde qui ils citent. C'est la logique de Citeable : une obligation de moyens, pas de résultat — on rend ton site aussi lisible et citable que possible, et les études ci-dessus disent pourquoi ça vaut le coup.