Guide

C'est quoi llms.txt ? Le fichier qui permet aux IA de lire ton site

Q: Où se place le fichier, et que contient-il ?

Le fichier se place à la racine du domaine, à l'adresse /llms.txt — par exemple https://citeable.eu/llms.txt. Son format est volontairement simple, en Markdown : un titre H1 unique avec le nom du site, une citation (blockquote) qui résume ce que fait le site, puis des sections H2 contenant des listes de liens vers les pages clés, chacune avec une description d'une ligne. La spécification prévoit aussi une section facultative, appelée « Optional », pour les liens secondaires qu'un modèle peut ignorer quand son contexte est serré. Une convention sœur, llms-full.txt, va plus loin et intègre le texte complet des pages importantes dans un seul fichier. La règle essentielle : il s'écrit pour des machines qui lisent comme des humains rapides et littéraux — noms clairs, vrai résumé, et des liens qui pointent vers des pages qui méritent vraiment d'être lues.

Q: Les moteurs IA lisent-ils vraiment llms.txt ?

En partie, et l'honnêteté compte ici. llms.txt est un standard proposé : ni OpenAI ni Google ne s'est officiellement engagé à l'utiliser pour le classement ou les citations. Ce qui est vérifiable aujourd'hui : les crawlers IA comme GPTBot, ClaudeBot ou PerplexityBot demandent bien /llms.txt sur les sites qui en publient un, et un nombre croissant d'acteurs — Anthropic, Zapier, Cloudflare, et la plupart des plateformes de documentation comme Mintlify — publient le fichier. Il est aussi immédiatement utile en navigation temps réel : quand ChatGPT, Perplexity ou Claude vont chercher ton site pour répondre à une question, un llms.txt propre est le chemin le plus court pour être compris correctement plutôt que paraphrasé depuis une page HTML bruitée. Le rapport coût-bénéfice est déséquilibré dans le bon sens : un fichier statique, zéro inconvénient, et une longueur d'avance si l'adoption continue de croître.

Q: Quelle différence entre llms.txt, robots.txt et sitemap.xml ?

Ils répondent à trois questions différentes. robots.txt gère la permission : quels robots peuvent crawler quelles parties du site — il ne dit rien du contenu. sitemap.xml gère l'inventaire : la liste des URL à indexer, avec leurs dates — utile pour la couverture, muet sur le sens. llms.txt gère la compréhension : ce que raconte ton site, dans une forme qu'un modèle de langage peut charger en une passe et réellement comprendre. Les trois sont complémentaires, pas concurrents. Un site qui veut être visible des moteurs IA devrait avoir les trois : un robots.txt qui autorise explicitement les crawlers IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended), un sitemap pour l'indexation classique, et un llms.txt pour le sens. En retirer un affaiblit un maillon différent de la chaîne : l'accès, la découverte, ou la compréhension.

Q: Un llms.txt suffit-il pour être cité par les IA ?

Non — et c'est l'idée reçue la plus répandue. llms.txt rend ton site lisible ; il ne le rend pas, à lui seul, citable. Les moteurs de réponse IA citent des passages qui répondent directement à une question précise, de façon autonome. C'est un problème de forme du contenu : des pages structurées en questions avec des réponses directes, plus des données structurées — un balisage Q&A au format schema.org (JSON-LD) — qui exposent ces paires question-réponse de façon lisible par la machine. C'est cette combinaison qui transforme « l'IA peut me lire » en « l'IA peut me citer mot pour mot ». C'est exactement la paire que génère Citeable : un llms.txt propre construit depuis ton vrai contenu, plus le balisage Q&A schema.org à déposer sur tes pages.

Q: Comment créer un fichier llms.txt ?

Deux façons. À la main : lis la spécification sur llmstxt.org, écris le Markdown toi-même — un H1, une blockquote de résumé, des sections de liens avec une description par ligne — et tiens-le à jour quand ton site change. Pour un petit site de quelques pages, compte une à deux heures ; la vraie difficulté est éditoriale : un llms.txt qui recopie ton sitemap n'apporte rien, la valeur est dans de vrais résumés de vrai contenu. Automatiquement : Citeable le fait depuis une URL — il crawle tes pages publiques, en extrait le contenu réel, et génère à la fois un llms.txt structuré et le balisage Q&A schema.org, pour un paiement unique. Dans les deux cas : publie le fichier à /llms.txt, vérifie qu'il se charge, et référence tes meilleures pages, pas toutes tes pages.

Mis à jour · 5 juillet 2026 — Joffrey Bonifay

Si tu t'intéresses à la visibilité de ton site dans ChatGPT, Perplexity, Gemini ou Claude, tu as forcément croisé ce nom de fichier : llms.txt. Voici ce que c'est, à quoi ça sert vraiment, et ce que ça ne fait pas — sans jargon et sans survendre.

C'est quoi, un fichier llms.txt ?

llms.txt est un fichier texte, écrit en Markdown, placé à la racine d'un site web, qui donne aux IA un résumé propre et structuré de ce qu'est le site : qui est derrière, ce qu'il propose, et où se trouvent ses pages importantes. C'est un standard ouvert proposé en septembre 2024 par Jeremy Howard, cofondateur d'Answer.AI ; la spécification est publiée sur llmstxt.org.

Le problème qu'il résout est simple : les modèles de langage ont une fenêtre de contexte limitée, et une page web typique noie le vrai contenu sous la navigation, les scripts et les bannières cookies. llms.txt tend au modèle la version essentielle, directement. Là où robots.txt parle aux crawlers de permissions, llms.txt parle aux modèles de sens— pour un moteur de réponse IA, c'est le chemin le plus court pour comprendre un site correctement.

Où se place le fichier, et que contient-il ?

À la racine du domaine, à l'adresse /llms.txt — par exemple citeable.eu/llms.txt. Son format est volontairement simple, en Markdown : un titre H1 unique (le nom du site), une blockquote qui résume ce que fait le site, puis des sections H2 listant des liens vers les pages clés, chacune avec une description d'une ligne. Une section facultative « Optional » accueille les liens secondaires qu'un modèle peut ignorer quand son contexte est serré.

# Boulangerie Acme

> Boulangerie familiale à Lyon. Pains au levain et viennoiseries
> cuits chaque jour. Commandes en click & collect avant 11 h.

## Pages

- [Nos pains](https://acme.fr/pains) : la gamme du jour et les prix
- [Commander](https://acme.fr/commander) : click & collect, horaires limites

## Optional

- [Notre histoire](https://acme.fr/histoire) : la famille derrière les fours

Une convention sœur, llms-full.txt, va plus loin et intègre le texte complet des pages importantes dans un seul fichier. La règle essentielle : llms.txt s'écrit pour des machines qui lisent comme des humains rapides et littéraux — noms clairs, vrai résumé, liens utiles.

Les moteurs IA lisent-ils vraiment llms.txt ?

En partie — et l'honnêteté compte ici. llms.txt est un standard proposé: ni OpenAI ni Google ne s'est officiellement engagé à l'utiliser pour le classement ou les citations. Ce qui est vérifiable aujourd'hui : les crawlers IA (GPTBot, ClaudeBot, PerplexityBot…) demandent bien /llms.txtsur les sites qui en publient un, et un nombre croissant d'acteurs — Anthropic, Zapier, Cloudflare, la plupart des plateformes de documentation comme Mintlify — publient le fichier.

Il est aussi immédiatement utile en navigation temps réel : quand ChatGPT, Perplexity ou Claude vont chercher ton site au moment de répondre, un llms.txt propre est le chemin le plus court pour être compris correctement plutôt que paraphrasé depuis une page HTML bruitée. Le rapport coût-bénéfice est déséquilibré dans le bon sens : un fichier statique, zéro inconvénient, et une longueur d'avance si l'adoption continue de croître.

Quelle différence entre llms.txt, robots.txt et sitemap.xml ?

Ils répondent à trois questions différentes. robots.txt gère la permission : quels robots peuvent crawler quelles parties du site — il ne dit rien du contenu. sitemap.xml gère l'inventaire : la liste des URL à indexer — utile pour la couverture, muet sur le sens. llms.txt gère la compréhension: ce que raconte ton site, dans une forme qu'un modèle peut charger en une passe.

Les trois sont complémentaires, pas concurrents. Un site qui veut être visible des moteurs IA devrait avoir les trois : un robots.txt qui autorise explicitement les crawlers IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended…), un sitemap pour l'indexation classique, et un llms.txt pour le sens. En retirer un affaiblit un maillon différent de la chaîne : l'accès, la découverte, ou la compréhension.

Un llms.txt suffit-il pour être cité par les IA ?

Non — et c'est l'idée reçue la plus répandue. llms.txt rend ton site lisible ; il ne le rend pas, à lui seul, citable. Les moteurs de réponse IA citent des passages qui répondent directement à une question précise, de façon autonome. C'est un problème de forme du contenu : des pages structurées en questions avec des réponses directes, plus des données structurées — un balisage Q&A au format schema.org (JSON-LD) — qui exposent ces paires question-réponse de façon lisible par la machine.

Cette combinaison transforme « l'IA peut me lire » en « l'IA peut me citer mot pour mot ». C'est exactement la paire que génère Citeable : un llms.txt propre construit depuis ton vrai contenu, plus le balisage Q&A schema.org à déposer sur tes pages. (Cette page même utilise ce balisage — regarde son code source.)

Comment créer un fichier llms.txt ?

Deux façons. À la main : lis la spécification sur llmstxt.org, écris le Markdown toi-même et tiens-le à jour quand ton site change. Pour un petit site, compte une à deux heures ; la vraie difficulté est éditoriale : un llms.txt qui recopie ton sitemap n'apporte rien, la valeur est dans de vrais résumés de vrai contenu.

Automatiquement : Citeable le fait depuis une URL — il crawle tes pages publiques, en extrait le contenu réel, et génère à la fois un llms.txt structuré et le balisage Q&A schema.org, pour un paiement unique. Dans les deux cas : publie le fichier à /llms.txt, vérifie qu'il se charge, et référence tes meilleures pages — pas toutes tes pages.