Creepy Crawlies

Le crawl web est un univers vaste et complexe, mais heureusement, vous n'avez pas à l'explorer seul. De nombreux outils sont disponibles pour automatiser ce processus, chacun avec ses points forts. Ces outils rendent le crawling plus rapide, plus efficace, et vous permettent de vous concentrer sur l'analyse des données extraites.


🚀 Outils Populaires de Crawl Web

đŸ›Ąïž Burp Suite Spider

Plateforme de test d'application web trÚs répandue, Burp Suite intÚgre un crawler actif appelé Spider. Il est idéal pour cartographier les applications web, identifier du contenu caché et déceler des vulnérabilités.

đŸ•”ïžâ€â™‚ïž OWASP ZAP Spider

ZAP est un scanneur de sĂ©curitĂ© open-source. Il peut ĂȘtre utilisĂ© en mode manuel ou automatisĂ©, et contient un composant de spider pour crawler et identifier les vulnĂ©rabilitĂ©s potentielles.

đŸ€– Scrapy (Framework Python)

Framework Python puissant et modulable, parfait pour créer des spiders personnalisés. Idéal pour des tùches de reconnaissance sur mesure, extraction de données structurées, et automatisation.

🚗 Apache Nutch

Crawler web open-source Ă©volutif Ă©crit en Java. AdaptĂ© aux crawls massifs de l’ensemble du web ou ciblĂ©s sur des domaines spĂ©cifiques. Requiert plus de compĂ©tences techniques mais offre une grande flexibilitĂ©.

⚠ Toujours respecter l’éthique ! Obtenez l’autorisation avant de crawler un site, Ă©vitez les scans intrusifs, et ne surchargez pas les serveurs avec des requĂȘtes excessives.


🧰 Utilisation de Scrapy avec ReconSpider

Nous allons utiliser Scrapy avec un spider personnalisé, ReconSpider, pour analyser inlanefreight.com.

🔧 Installation de Scrapy

pip3 install scrapy

📁 TĂ©lĂ©chargement de ReconSpider

wget -O ReconSpider.zip https://academy.hackthebox.com/storage/modules/144/ReconSpider.v1.2.zip
unzip ReconSpider.zip

🚀 Lancer ReconSpider

python3 ReconSpider.py http://inlanefreight.com

Il est nécessaire de remplacerinlanefreight.com par le domaine ciblé. Le spider va crawler et collecter les informations utiles.


📂 Structure du fichier results.json

AprĂšs l’exĂ©cution, les rĂ©sultats sont enregistrĂ©s dans un fichier results.json. Voici sa structure :

{
  "emails": [
    "lily.floid@inlanefreight.com",
    "cvs@inlanefreight.com"
  ],
  "links": [
    "https://www.themeansar.com",
    "https://www.inlanefreight.com/index.php/offices/"
  ],
  "external_files": [
    "https://www.inlanefreight.com/wp-content/uploads/2020/09/goals.pdf"
  ],
  "js_files": [
    "https://www.inlanefreight.com/wp-includes/js/jquery/jquery-migrate.min.js?ver=3.3.2"
  ],
  "form_fields": [],
  "images": [
    "https://www.inlanefreight.com/wp-content/uploads/2021/03/AboutUs_01-1024x810.png"
  ],
  "videos": [],
  "audio": [],
  "comments": [
    "<!-- #masthead -->"
  ]
}

🔍 Signification des ClĂ©s JSON

Clé JSON
Description

emails

Liste d'adresses email trouvées

links

URLs internes et externes

external_files

Fichiers externes (PDF, DOCX, etc.)

js_files

Scripts JavaScript chargés

form_fields

Champs de formulaire identifiés

images

Fichiers image téléchargés

videos

Fichiers vidéo trouvés

audio

Fichiers audio trouvés

comments

Commentaires HTML du code source

📄 L'analyse du JSON permet d'obtenir des informations clĂ©s sur l'architecture du site, les ressources disponibles, et les points d'entrĂ©e potentiels pour une analyse plus poussĂ©e.


After spidering inlanefreight.com, identify the location where future reports will be stored. Respond with the full domain, e.g., files.inlanefreight.com.

Installation de ReconSpider :

$ wget -O ReconSpider.zip https://academy.hackthebox.com/storage/modules/144/ReconSpider.v1.2.zip

Saving to: ‘ReconSpider.zip’
ReconSpider.zip           100%[=====================================>]   1.67K  --.-KB/s    in 0.002s  
2025-06-29 10:53:01 (809 KB/s) - ‘ReconSpider.zip’ saved [1706/1706]

$ unzip ReconSpider.zip 
Archive:  ReconSpider.zip
  inflating: ReconSpider.py

Utilisation de ReconSpider :

python3 ReconSpider.py http://inlanefreight.com

Une fois ceci effectué, nous lisons le rapport JSON :

$ ls
ReconSpider.py  ReconSpider.zip  results.json

$ cat results.json 
{
[...]
        "<!--Sidebar Area-->",
        "<!--==================== TOP BAR ====================-->",
        "<!--==================== transportex-FOOTER AREA ====================-->",
        "<!--==================== feature-product ====================-->",
        "<!-- change Jeremy's email to jeremy-ceo@inlanefreight.com -->",
        "<!-- Navigation -->",
        "<!-- navbar-toggle -->",
        "<!-- Right nav -->",
        "<!-- /navbar-toggle -->",
        "<!-- TO-DO: change the location of future reports to inlanefreight-comp133.s3.amazonaws.htb -->",
        "<!-- /Right nav -->",
        "<!-- /Navigation -->",
        "<!-- #secondary -->",
        "<!-- Blog Area -->",
        "<!--/overlay-->",
        "<!--\nSkip to content<div class=\"wrapper\">\n<header class=\"transportex-trhead\">\n\t<!--==================== Header ====================-->",
        "<!-- #masthead -->",
        "<!-- Logo -->"
    ]
}

Nous pouvons alors observer ceci :

"<!-- TO-DO: change the location of future reports to inlanefreight-comp133.s3.amazonaws.htb -->",

Cette ligne nous permet d'obtenir le prochain emplacement du stockage des rapports. Il s'agit de inlanefreight-comp133.s3.amazonaws.htb.


Mis Ă  jour