Creepy Crawlies

Le crawl web est un univers vaste et complexe, mais heureusement, vous n'avez pas à l'explorer seul. De nombreux outils sont disponibles pour automatiser ce processus, chacun avec ses points forts. Ces outils rendent le crawling plus rapide, plus efficace, et vous permettent de vous concentrer sur l'analyse des données extraites.

🚀 Outils Populaires de Crawl Web

🛡️ Burp Suite Spider

Plateforme de test d'application web très répandue, Burp Suite intègre un crawler actif appelé Spider. Il est idéal pour cartographier les applications web, identifier du contenu caché et déceler des vulnérabilités.

🕵️‍♂️ OWASP ZAP Spider

ZAP est un scanneur de sécurité open-source. Il peut être utilisé en mode manuel ou automatisé, et contient un composant de spider pour crawler et identifier les vulnérabilités potentielles.

🤖 Scrapy (Framework Python)

Framework Python puissant et modulable, parfait pour créer des spiders personnalisés. Idéal pour des tâches de reconnaissance sur mesure, extraction de données structurées, et automatisation.

🚗 Apache Nutch

Crawler web open-source évolutif écrit en Java. Adapté aux crawls massifs de l’ensemble du web ou ciblés sur des domaines spécifiques. Requiert plus de compétences techniques mais offre une grande flexibilité.

⚠️ Toujours respecter l’éthique ! Obtenez l’autorisation avant de crawler un site, évitez les scans intrusifs, et ne surchargez pas les serveurs avec des requêtes excessives.

🧰 Utilisation de Scrapy avec ReconSpider

Nous allons utiliser Scrapy avec un spider personnalisé, ReconSpider, pour analyser inlanefreight.com.

🔧 Installation de Scrapy

pip3 install scrapy

📁 Téléchargement de ReconSpider

wget -O ReconSpider.zip https://academy.hackthebox.com/storage/modules/144/ReconSpider.v1.2.zip
unzip ReconSpider.zip

🚀 Lancer ReconSpider

python3 ReconSpider.py http://inlanefreight.com

Il est nécessaire de remplacerinlanefreight.com par le domaine ciblé. Le spider va crawler et collecter les informations utiles.

📂 Structure du fichier results.json

Après l’exécution, les résultats sont enregistrés dans un fichier results.json. Voici sa structure :

{
  "emails": [
    "lily.floid@inlanefreight.com",
    "cvs@inlanefreight.com"
  ],
  "links": [
    "https://www.themeansar.com",
    "https://www.inlanefreight.com/index.php/offices/"
  ],
  "external_files": [
    "https://www.inlanefreight.com/wp-content/uploads/2020/09/goals.pdf"
  ],
  "js_files": [
    "https://www.inlanefreight.com/wp-includes/js/jquery/jquery-migrate.min.js?ver=3.3.2"
  ],
  "form_fields": [],
  "images": [
    "https://www.inlanefreight.com/wp-content/uploads/2021/03/AboutUs_01-1024x810.png"
  ],
  "videos": [],
  "audio": [],
  "comments": [
    "<!-- #masthead -->"
  ]
}

🔍 Signification des Clés JSON

Clé JSON

Description

emails

Liste d'adresses email trouvées

links

URLs internes et externes

external_files

Fichiers externes (PDF, DOCX, etc.)

js_files

Scripts JavaScript chargés

form_fields

Champs de formulaire identifiés

images

Fichiers image téléchargés

videos

Fichiers vidéo trouvés

audio

Fichiers audio trouvés

comments

Commentaires HTML du code source

📄 L'analyse du JSON permet d'obtenir des informations clés sur l'architecture du site, les ressources disponibles, et les points d'entrée potentiels pour une analyse plus poussée.

After spidering inlanefreight.com, identify the location where future reports will be stored. Respond with the full domain, e.g., files.inlanefreight.com.

Installation de ReconSpider :

$ wget -O ReconSpider.zip https://academy.hackthebox.com/storage/modules/144/ReconSpider.v1.2.zip

Saving to: ‘ReconSpider.zip’
ReconSpider.zip           100%[=====================================>]   1.67K  --.-KB/s    in 0.002s  
2025-06-29 10:53:01 (809 KB/s) - ‘ReconSpider.zip’ saved [1706/1706]

$ unzip ReconSpider.zip 
Archive:  ReconSpider.zip
  inflating: ReconSpider.py

Utilisation de ReconSpider :

python3 ReconSpider.py http://inlanefreight.com

Une fois ceci effectué, nous lisons le rapport JSON :

$ ls
ReconSpider.py  ReconSpider.zip  results.json

$ cat results.json 
{
[...]
        "<!--Sidebar Area-->",
        "<!--==================== TOP BAR ====================-->",
        "<!--==================== transportex-FOOTER AREA ====================-->",
        "<!--==================== feature-product ====================-->",
        "<!-- change Jeremy's email to jeremy-ceo@inlanefreight.com -->",
        "<!-- Navigation -->",
        "<!-- navbar-toggle -->",
        "<!-- Right nav -->",
        "<!-- /navbar-toggle -->",
        "<!-- TO-DO: change the location of future reports to inlanefreight-comp133.s3.amazonaws.htb -->",
        "<!-- /Right nav -->",
        "<!-- /Navigation -->",
        "<!-- #secondary -->",
        "<!-- Blog Area -->",
        "<!--/overlay-->",
        "<!--\nSkip to content<div class=\"wrapper\">\n<header class=\"transportex-trhead\">\n\t<!--==================== Header ====================-->",
        "<!-- #masthead -->",
        "<!-- Logo -->"
    ]
}

Nous pouvons alors observer ceci :

"<!-- TO-DO: change the location of future reports to inlanefreight-comp133.s3.amazonaws.htb -->",

Cette ligne nous permet d'obtenir le prochain emplacement du stockage des rapports. Il s'agit de inlanefreight-comp133.s3.amazonaws.htb.

PreviousWell-Known URIs NextSearch Engine Discovery

Last updated 7 months ago

hashtag🚀 Outils Populaires de Crawl Web

hashtag🛡️ Burp Suite Spider

hashtag🕵️‍♂️ OWASP ZAP Spider

hashtag🤖 Scrapy (Framework Python)

hashtag🚗 Apache Nutch

hashtag🧰 Utilisation de Scrapy avec ReconSpider

hashtag🔧 Installation de Scrapy

hashtag📁 Téléchargement de ReconSpider

hashtag🚀 Lancer ReconSpider

hashtag📂 Structure du fichier results.json

hashtag🔍 Signification des Clés JSON