robots.txt
đ§ Quâest-ce que le fichier robots.txt ?
Le fichier robots.txt
est un fichier texte simple situĂ© Ă la racine dâun site web (par exemple : https://www.example.com/robots.txt
). Il sert de guide dâĂ©tiquette numĂ©rique pour les robots dâindexation (crawlers) tels que ceux de Google, Bing ou dâautres moteurs de recherche. Il indique quelles parties du site un robot est autorisĂ© Ă explorer ou non.
Ce fichier est basé sur la norme Robots Exclusion Protocol, un ensemble de rÚgles que les crawlers respectent volontairement.
âïž Fonctionnement
Le fichier contient des directives qui sâappliquent Ă des user-agents (identifiants de bots). Voici un exemple simple :
User-agent: *
Disallow: /admin/
đ Cette configuration signifie : « Tous les bots () ne sont pas autorisĂ©s Ă explorer le dossier /admin/ »*.
đ Structure dâun fichier robots.txt
Chaque "bloc" du fichier commence par un User-agent:
et est suivi de directives comme :
Disallow
Interdit lâaccĂšs Ă une URL ou un chemin
Disallow: /private/
Allow
Autorise explicitement lâaccĂšs mĂȘme sâil est dans un Disallow
Allow: /public/
Crawl-delay
Implique une pause entre chaque requĂȘte du bot (en secondes)
Crawl-delay: 10
Sitemap
Indique lâURL du sitemap XML du site
Sitemap: https://example.com/sitemap.xml
đĄ Il est possible de spĂ©cifier des rĂšgles pour des bots prĂ©cis :
User-agent: Googlebot
Disallow: /intranet/
đ€ Pourquoi ce fichier est-il important pour un pentester ?
MĂȘme sâil est censĂ© ĂȘtre respectĂ© par les bots, le fichier robots.txt
nâest pas un mĂ©canisme de sĂ©curitĂ© ! Il est souvent oubliĂ© ou nĂ©gligĂ© par les dĂ©veloppeurs, ce qui en fait une mine dâor pour la reconnaissance :
đ Utilisations en phase de reconnaissance
đ DĂ©couverte de rĂ©pertoires sensibles : les chemins interdits (
Disallow
) rĂ©vĂšlent souvent des pages dâadministration, des outils internes ou des fichiers confidentiels.đ§ Cartographie de la structure du site : il permet de dĂ©couvrir des sections non rĂ©fĂ©rencĂ©es dans les menus ou le sitemap.
đ DĂ©tection de piĂšges Ă bots (honeypots) : certains sites placent de faux chemins pour repĂ©rer les crawlers malveillants.
đ§Ș Exemple de fichier robots.txt
robots.txt
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
User-agent: Googlebot
Crawl-delay: 10
Sitemap: https://www.example.com/sitemap.xml
Ce fichier indique :
â Tous les bots doivent Ă©viter
/admin/
et/private/
â Ils peuvent accĂ©der Ă
/public/
đ Googlebot doit attendre 10 secondes entre chaque requĂȘte
đșïž Un sitemap est fourni
đš Limitations et risques
â Le fichier nâest pas sĂ©curisĂ© : tout utilisateur peut y accĂ©der.
đ Il n'empĂȘche pas techniquement lâaccĂšs, il ne fait quâinformer les bots respectueux.
đ§ Il rĂ©vĂšle souvent des informations sensibles involontairement.
đ En pratique
Lors dâun test de pĂ©nĂ©tration, il faut penser Ă toujours consulter le fichier robots.txt
:
curl -s https://target.com/robots.txt
Et à examiner les chemins mentionnés dans Disallow
pour y déceler :
des pages dâadministration (
/admin/
,/panel/
,/login/
)des sauvegardes (
/backup/
,/db_bak/
)des scripts ou endpoints confidentiels (
/dev/
,/api/test/
)
đ Ă retenir
Le fichier robots.txt
est une source d'informations prĂ©cieuse pour le pentester en phase de reconnaissance passive. Il ne doit jamais ĂȘtre ignorĂ© car il peut :
révéler des ressources cachées,
orienter vers des points dâentrĂ©e oubliĂ©s,
ou au contraire signaler la présence de piÚges anti-crawler.
đ RĂšgle dâor : si un site indique de ne pas aller dans
/secret/
, le pentester se demandera forcĂ©ment ce quâil sây cache...
Mis Ă jour