Creepy Crawlies
Le crawl web est un univers vaste et complexe, mais heureusement, vous n'avez pas à l'explorer seul. De nombreux outils sont disponibles pour automatiser ce processus, chacun avec ses points forts. Ces outils rendent le crawling plus rapide, plus efficace, et vous permettent de vous concentrer sur l'analyse des données extraites.
đ Outils Populaires de Crawl Web
đĄïž Burp Suite Spider
Plateforme de test d'application web trÚs répandue, Burp Suite intÚgre un crawler actif appelé Spider. Il est idéal pour cartographier les applications web, identifier du contenu caché et déceler des vulnérabilités.
đ”ïžââïž OWASP ZAP Spider
ZAP est un scanneur de sĂ©curitĂ© open-source. Il peut ĂȘtre utilisĂ© en mode manuel ou automatisĂ©, et contient un composant de spider pour crawler et identifier les vulnĂ©rabilitĂ©s potentielles.
đ€ Scrapy (Framework Python)
Framework Python puissant et modulable, parfait pour créer des spiders personnalisés. Idéal pour des tùches de reconnaissance sur mesure, extraction de données structurées, et automatisation.
đ Apache Nutch
Crawler web open-source Ă©volutif Ă©crit en Java. AdaptĂ© aux crawls massifs de lâensemble du web ou ciblĂ©s sur des domaines spĂ©cifiques. Requiert plus de compĂ©tences techniques mais offre une grande flexibilitĂ©.
â ïž Toujours respecter lâĂ©thique ! Obtenez lâautorisation avant de crawler un site, Ă©vitez les scans intrusifs, et ne surchargez pas les serveurs avec des requĂȘtes excessives.
đ§° Utilisation de Scrapy avec ReconSpider
Nous allons utiliser Scrapy avec un spider personnalisé, ReconSpider, pour analyser inlanefreight.com.
đ§ Installation de Scrapy
pip3 install scrapy
đ TĂ©lĂ©chargement de ReconSpider
wget -O ReconSpider.zip https://academy.hackthebox.com/storage/modules/144/ReconSpider.v1.2.zip
unzip ReconSpider.zip
đ Lancer ReconSpider
python3 ReconSpider.py http://inlanefreight.com
Il est nécessaire de remplacer
inlanefreight.com
par le domaine ciblé. Le spider va crawler et collecter les informations utiles.
đ Structure du fichier results.json
AprĂšs lâexĂ©cution, les rĂ©sultats sont enregistrĂ©s dans un fichier results.json
. Voici sa structure :
{
"emails": [
"lily.floid@inlanefreight.com",
"cvs@inlanefreight.com"
],
"links": [
"https://www.themeansar.com",
"https://www.inlanefreight.com/index.php/offices/"
],
"external_files": [
"https://www.inlanefreight.com/wp-content/uploads/2020/09/goals.pdf"
],
"js_files": [
"https://www.inlanefreight.com/wp-includes/js/jquery/jquery-migrate.min.js?ver=3.3.2"
],
"form_fields": [],
"images": [
"https://www.inlanefreight.com/wp-content/uploads/2021/03/AboutUs_01-1024x810.png"
],
"videos": [],
"audio": [],
"comments": [
"<!-- #masthead -->"
]
}
đ Signification des ClĂ©s JSON
emails
Liste d'adresses email trouvées
links
URLs internes et externes
external_files
Fichiers externes (PDF, DOCX, etc.)
js_files
Scripts JavaScript chargés
form_fields
Champs de formulaire identifiés
images
Fichiers image téléchargés
videos
Fichiers vidéo trouvés
audio
Fichiers audio trouvés
comments
Commentaires HTML du code source
đ L'analyse du JSON permet d'obtenir des informations clĂ©s sur l'architecture du site, les ressources disponibles, et les points d'entrĂ©e potentiels pour une analyse plus poussĂ©e.
After spidering inlanefreight.com, identify the location where future reports will be stored. Respond with the full domain, e.g., files.inlanefreight.com.
Installation de ReconSpider :
$ wget -O ReconSpider.zip https://academy.hackthebox.com/storage/modules/144/ReconSpider.v1.2.zip
Saving to: âReconSpider.zipâ
ReconSpider.zip 100%[=====================================>] 1.67K --.-KB/s in 0.002s
2025-06-29 10:53:01 (809 KB/s) - âReconSpider.zipâ saved [1706/1706]
$ unzip ReconSpider.zip
Archive: ReconSpider.zip
inflating: ReconSpider.py
Utilisation de ReconSpider :
python3 ReconSpider.py http://inlanefreight.com
Une fois ceci effectué, nous lisons le rapport JSON :
$ ls
ReconSpider.py ReconSpider.zip results.json
$ cat results.json
{
[...]
"<!--Sidebar Area-->",
"<!--==================== TOP BAR ====================-->",
"<!--==================== transportex-FOOTER AREA ====================-->",
"<!--==================== feature-product ====================-->",
"<!-- change Jeremy's email to jeremy-ceo@inlanefreight.com -->",
"<!-- Navigation -->",
"<!-- navbar-toggle -->",
"<!-- Right nav -->",
"<!-- /navbar-toggle -->",
"<!-- TO-DO: change the location of future reports to inlanefreight-comp133.s3.amazonaws.htb -->",
"<!-- /Right nav -->",
"<!-- /Navigation -->",
"<!-- #secondary -->",
"<!-- Blog Area -->",
"<!--/overlay-->",
"<!--\nSkip to content<div class=\"wrapper\">\n<header class=\"transportex-trhead\">\n\t<!--==================== Header ====================-->",
"<!-- #masthead -->",
"<!-- Logo -->"
]
}
Nous pouvons alors observer ceci :
"<!-- TO-DO: change the location of future reports to inlanefreight-comp133.s3.amazonaws.htb -->",
Cette ligne nous permet d'obtenir le prochain emplacement du stockage des rapports.
Il s'agit de inlanefreight-comp133.s3.amazonaws.htb
.
Mis Ă jour