Web Archives
🔢 Introduction au Wayback Machine
Dans le monde numérique en perpétuel changement, les sites web apparaissent, évoluent, puis disparaissent, laissant peu de traces derrière eux. Heureusement, grâce au Wayback Machine de l'« Internet Archive », il est possible de remonter dans le temps et d'explorer les versions précédentes de n'importe quel site.
Le Wayback Machine est un service créé par l'organisation à but non lucratif Internet Archive. Depuis 1996, il capture et conserve des instantanés de millions de sites web, permettant aux utilisateurs de consulter une version archivée d'une page à un moment donné.
🔄 Comment fonctionne le Wayback Machine ?
1. Crawling (exploration)
Le service utilise des bots (ou "crawlers") similaires à ceux des moteurs de recherche. Ces bots parcourent le web, cliquent sur des liens et téléchargent les pages web.
2. Archiving (archivage)
Chaque page capturée est stockée avec ses fichiers associés (HTML, CSS, images, scripts...). Chaque capture est horodatée pour créer un instantané fidèle du site à ce moment précis.
3. Accessing (consultation)
En saisissant une URL sur archive.org/web, les utilisateurs peuvent naviguer entre différentes versions d'un site selon les dates de capture disponibles.
⚠️ Le nombre de captures d'un site varie selon sa popularité, sa fréquence de mise à jour et l'intérêt culturel de son contenu.
🕵️♂️ Pourquoi le Wayback Machine est utile en Web Recon ?
Le Wayback Machine constitue une ressource puissante en reconnaissance web (reconnaissance passive) pour plusieurs raisons :
⚖️ Analyse historique
Comparer différentes versions d'un site permet d'identifier :
Des changements de structure
Des technologies obsolètes ou supprimées
Des données ou fichiers supprimés depuis
🔐 Accès à des ressources cachées
Certaines pages ou sous-domaines visibles dans le passé peuvent aujourd'hui être désindexés ou cachés. Ces informations peuvent révéler :
Des zones administratives oubliées
Des fichiers de configuration ou de sauvegarde
Des indices pour des tests d'intrusion ciblés
✍️ Collecte d'informations OSINT
Les anciennes pages peuvent contenir :
Des noms d'employés
Des communiqués sur les technologies utilisées
Des données marketing historiques utiles en OSINT
🚫 Reconnaissance furtive
Le Wayback Machine permet une collecte d'information sans jamais interagir directement avec les serveurs du site ciblé : c'est donc une méthode de recon très discrète.
📰 Exemple : Remonter le temps sur Hack The Box
On peut retrouver la première version de HackTheBox en date du 10 juin 2017 à 04:23:01 via le lien suivant :
https://web.archive.org/web/20170610042301/https://hackthebox.eu/
La page présentait alors la version 0.8.7 beta du site, avec un logo cubique vert, une page statique et une simple description du projet.
🔮 Récapitulatif
🤍 Recherche historique
Accès à des pages disparues
🛏️ OSINT
Collecte passive d'informations anciennes
🚫 Discrétion
Ne laisse aucune trace sur le site ciblé
🌐 Accès
Gratuit et publiquement disponible
📚 Ressources utiles
How many Pen Testing Labs did HackTheBox have on the 8th August 2018? Answer with an integer, eg 1234.
Nous effectuons une recherche sur Wayback Machine afin de répondre à la question :

Nous pouvons alors observer que 74
Labs étaient disponibles le 8 Août 2018.
How many members did HackTheBox have on the 10th June 2017? Answer with an integer, eg 1234.
Nous effectuons une recherche sur Wayback Machine afin de répondre à la question :

Nous pouvons alors observer que 3054
membres étaient présents le 10 juin 2017.
Going back to March 2002, what website did the facebook.com domain redirect to? Answer with the full domain, eg http://www.facebook.com/
Nous pouvons observer que le site facebook redirige vers http://site.aboutface.com/
en mars 2002 :

According to the paypal.com website in October 1999, what could you use to "beam money to anyone"? Answer with the product name, eg My Device, remove the ™ from your answer.
D'après Paypal en october 1999, nous pouvons envoyer de l'argent grâce à Palm 0rganizer
:

Going back to November 1998 on google.com, what address hosted the non-alpha "Google Search Engine Prototype" of Google? Answer with the full address, eg http://google.com
Comme nous pouvons le voir sur l'image ci-dessous, le champ "Google Search Engine Prototype" nous redirige vers l'URL http://google.stanford.edu/
:


Going back to March 2000 on www.iana.org, when exacty was the site last updated? Answer with the date in the footer, eg 11-March-99
Nous pouvons observer une mise à jour de la page le 17 décembre 1999 sur le site www.iana.org en mars 2000 :

According to the wikipedia.com snapshot taken in March 2001, how many pages did they have over? Answer with the number they state without any commas, eg 2000 not 2,000
Nous pouvons voir que 3000
pages existaient en mars 2001 sur le site de Wikipedia :

Mis à jour