Creepy Crawlies
Le crawl web est un univers vaste et complexe, mais heureusement, vous n'avez pas à l'explorer seul. De nombreux outils sont disponibles pour automatiser ce processus, chacun avec ses points forts. Ces outils rendent le crawling plus rapide, plus efficace, et vous permettent de vous concentrer sur l'analyse des données extraites.
đ Outils Populaires de Crawl Web
đĄïž Burp Suite Spider
Plateforme de test d'application web trÚs répandue, Burp Suite intÚgre un crawler actif appelé Spider. Il est idéal pour cartographier les applications web, identifier du contenu caché et déceler des vulnérabilités.
đ”ïžââïž OWASP ZAP Spider
ZAP est un scanneur de sĂ©curitĂ© open-source. Il peut ĂȘtre utilisĂ© en mode manuel ou automatisĂ©, et contient un composant de spider pour crawler et identifier les vulnĂ©rabilitĂ©s potentielles.
đ€ Scrapy (Framework Python)
Framework Python puissant et modulable, parfait pour créer des spiders personnalisés. Idéal pour des tùches de reconnaissance sur mesure, extraction de données structurées, et automatisation.
đ Apache Nutch
Crawler web open-source Ă©volutif Ă©crit en Java. AdaptĂ© aux crawls massifs de lâensemble du web ou ciblĂ©s sur des domaines spĂ©cifiques. Requiert plus de compĂ©tences techniques mais offre une grande flexibilitĂ©.
â ïž Toujours respecter lâĂ©thique ! Obtenez lâautorisation avant de crawler un site, Ă©vitez les scans intrusifs, et ne surchargez pas les serveurs avec des requĂȘtes excessives.
đ§° Utilisation de Scrapy avec ReconSpider
Nous allons utiliser Scrapy avec un spider personnalisé, ReconSpider, pour analyser inlanefreight.com.
đ§ Installation de Scrapy
đ TĂ©lĂ©chargement de ReconSpider
đ Lancer ReconSpider
Il est nécessaire de remplacer
inlanefreight.compar le domaine ciblé. Le spider va crawler et collecter les informations utiles.
đ Structure du fichier results.json
AprĂšs lâexĂ©cution, les rĂ©sultats sont enregistrĂ©s dans un fichier results.json. Voici sa structure :
đ Signification des ClĂ©s JSON
emails
Liste d'adresses email trouvées
links
URLs internes et externes
external_files
Fichiers externes (PDF, DOCX, etc.)
js_files
Scripts JavaScript chargés
form_fields
Champs de formulaire identifiés
images
Fichiers image téléchargés
videos
Fichiers vidéo trouvés
audio
Fichiers audio trouvés
comments
Commentaires HTML du code source
đ L'analyse du JSON permet d'obtenir des informations clĂ©s sur l'architecture du site, les ressources disponibles, et les points d'entrĂ©e potentiels pour une analyse plus poussĂ©e.
After spidering inlanefreight.com, identify the location where future reports will be stored. Respond with the full domain, e.g., files.inlanefreight.com.
Installation de ReconSpider :
Utilisation de ReconSpider :
Une fois ceci effectué, nous lisons le rapport JSON :
Nous pouvons alors observer ceci :
Cette ligne nous permet d'obtenir le prochain emplacement du stockage des rapports.
Il s'agit de inlanefreight-comp133.s3.amazonaws.htb.
Last updated