robots.txt

🧭 Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte simple situé à la racine d’un site web (par exemple : https://www.example.com/robots.txt). Il sert de guide d’étiquette numérique pour les robots d’indexation (crawlers) tels que ceux de Google, Bing ou d’autres moteurs de recherche. Il indique quelles parties du site un robot est autorisé à explorer ou non.

Ce fichier est basé sur la norme Robots Exclusion Protocol, un ensemble de règles que les crawlers respectent volontairement.

⚙️ Fonctionnement

Le fichier contient des directives qui s’appliquent à des user-agents (identifiants de bots). Voici un exemple simple :

User-agent: *
Disallow: /admin/

👉 Cette configuration signifie : « Tous les bots () ne sont pas autorisés à explorer le dossier /admin/ »*.

📚 Structure d’un fichier robots.txt

Chaque "bloc" du fichier commence par un User-agent: et est suivi de directives comme :

Directive

Description

Exemple

Disallow

Interdit l’accès à une URL ou un chemin

Disallow: /private/

Allow

Autorise explicitement l’accès même s’il est dans un Disallow

Allow: /public/

Crawl-delay

Implique une pause entre chaque requête du bot (en secondes)

Crawl-delay: 10

Sitemap

Indique l’URL du sitemap XML du site

Sitemap: https://example.com/sitemap.xml

💡 Il est possible de spécifier des règles pour des bots précis :

User-agent: Googlebot
Disallow: /intranet/

🤔 Pourquoi ce fichier est-il important pour un pentester ?

Même s’il est censé être respecté par les bots, le fichier robots.txt n’est pas un mécanisme de sécurité ! Il est souvent oublié ou négligé par les développeurs, ce qui en fait une mine d’or pour la reconnaissance :

📌 Utilisations en phase de reconnaissance

🔎 Découverte de répertoires sensibles : les chemins interdits (Disallow) révèlent souvent des pages d’administration, des outils internes ou des fichiers confidentiels.
🧭 Cartographie de la structure du site : il permet de découvrir des sections non référencées dans les menus ou le sitemap.
🐝 Détection de pièges à bots (honeypots) : certains sites placent de faux chemins pour repérer les crawlers malveillants.

🧪 Exemple de fichier `robots.txt`

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

User-agent: Googlebot
Crawl-delay: 10

Sitemap: https://www.example.com/sitemap.xml

Ce fichier indique :

❌ Tous les bots doivent éviter /admin/ et /private/
✅ Ils peuvent accéder à /public/
🕐 Googlebot doit attendre 10 secondes entre chaque requête
🗺️ Un sitemap est fourni

🚨 Limitations et risques

❌ Le fichier n’est pas sécurisé : tout utilisateur peut y accéder.
🛑 Il n'empêche pas techniquement l’accès, il ne fait qu’informer les bots respectueux.
🧠 Il révèle souvent des informations sensibles involontairement.

🔍 En pratique

Lors d’un test de pénétration, il faut penser à toujours consulter le fichier robots.txt :

curl -s https://target.com/robots.txt

Et à examiner les chemins mentionnés dans Disallow pour y déceler :

des pages d’administration (/admin/, /panel/, /login/)
des sauvegardes (/backup/, /db_bak/)
des scripts ou endpoints confidentiels (/dev/, /api/test/)

🎓 À retenir

Le fichier robots.txt est une source d'informations précieuse pour le pentester en phase de reconnaissance passive. Il ne doit jamais être ignoré car il peut :

révéler des ressources cachées,
orienter vers des points d’entrée oubliés,
ou au contraire signaler la présence de pièges anti-crawler.

📌 Règle d’or : si un site indique de ne pas aller dans /secret/, le pentester se demandera forcément ce qu’il s’y cache...

PrécédentCrawling SuivantWell-Known URIs

Mis à jour il y a 1 mois