Publié par : Memento Mouloud | mars 26, 2015

Memex ou la nouvelle frontière : contrôler le web profond

Un groupe de chercheurs américains a tenté d’en savoir un peu plus sur ce que font les utilisateurs d’Internet sous couvert d’anonymat. Ils indiquent qu’une écrasante majorité du trafic « caché » d’Internet (ou deep web), c’est-à-dire accessible en ligne mais non indexé par les moteurs de recherche classiques, concerne l’abus sexuel d’ enfants. Pour le reste, les forums sur la drogue et les marchés de contrebande représentent la grande majorité des sites qui ne sont pas indexés.

Plus de quatre visites sur cinq sur le web « caché » concerneraient des sites pédophiles. C’est cinq fois plus que le trafic recensé dans les autres catégories de contenu du deep web que les chercheurs américains ont répertoriées. Néanmoins, ces sites ont une durée de vie relativement faible, le monde des hackers ayant promu une sorte de déontologie darwinienne. La destruction de leurs contenus et la publication des données de leurs membres est donc très fréquente. Comme ce monde est celui de l’exhibitionnisme paranoïaque, il est bien entendu toujours possible de compromettre sans frais n’importe quel quidam.

L’intervention de ce groupe de chercheurs s’opère à point nommé puisque un programme de l’US army « Memex était capable de repérer de nombreuses pages cachées faisant la promotion de services sexuels, puis de récupérer des données permettant d’identifier le lieu de leur publication: géolocalisation d’un appareil, adresse IP, numéro de téléphone ou une adresse mentionnée dans la réclame. Elles étaient ensuite compilées, recoupées puis associées aux photos de femmes figurant sur ces pages ». Une opération saluée par le Président Obama en personne qui, entre deux autorisations de bombardements sur un site moyen-oriental quelconque a déclaré : « il s’agit d’un bel exemple de la manière dont le Big Data peut aider à protéger les personnes vulnérables ».

Or ce nom de Memex n’est pas indifférent puisqu’il a été attribué, en 1945, par Vannevar Bush à un « dispositif dans lequel un individu stocke ses livres, ses archives et ses communications, et qui est mécanisé pour être consulté d’une façon rapide et souple. »

Notons tout de suite que le web en question n’est pas caché mais rendu invisible au quidam par son absence d’indexation. Les pages créées n’appartiennent pas au nœud du web mais à ses ailes (ce qui ressuscite la théorie du groupe harmonique selon Fourier).

Certains sites sont donc protégés par des mots de passe, d’autres interdites de références. On y trouve aussi les contenus dynamiques soit les flux changeants d’informations, les fichiers dont le format n’est pas indexable, des pages dépourvues de liens hypertextes et d’autres inaccessibles sans l’exécution d’un programme. Dès 2011, l’Université Sophia-Antipolis indiquait, « Votre Université, par l’intermédiaire de son Service Commun de la Documentation, consacre un budget important à l’abonnement aux revues, bouquets de revues et bases de données qui fournissent une documentation scientifique de haut niveau. Renseignez-vous sur les ressources disponibles et leurs conditions d’accès. »

Il s’en suit que le web caché ou invisible ne peut être réduit à son pôle criminel au même titre que n’importe quelle société.

Cette couche internet possède sa propre monnaie (les Bitcoins), ses propres codes négociés et ses propres modes d’accès (Tor entre autres). Pour atteindre la majorité de ces sites non référencés, il faut passer, subsidiairement, par Tor (un navigateur « anonyme ») et surtout connaître à l’avance les adresses que l’on souhaite visiter.

Le principe de fonctionnement est assez simple : tout comme Amazon Marketplace, il suffit de créer un compte (sans laisser ses informations personnelles bien sûr), puis laisser le moteur de recherche remuer la base de données de produits mis en ligne par les vendeurs afin de repérer le produit désiré. Il faut donc se mettre en relation avec le vendeur, lui envoyer l’adresse de livraison voulue cryptée  puis le payer en Bitcoins : la monnaie 100% virtuelle développée par le japonais Satoshi Nakamoto.

On trouvera aussi les petites annonces des tueurs à gages avec des tarifs différenciés selon les tâches demandées : « 10 000 –euros- for normal people, 20 000 for businessmen, 50 000 for politicians and cops » où l’on voit que le deep web est nettement plus démocratique que la mondialisation émergée puisque la côte d’un homme d’affaires est deux fois supérieure à celle du common man. D’autres tarifs plus précis sont affichés pour les commandes spéciales (trophées, mutilations…)

La possibilité existe pour des chefs d’entreprise, politiciens ou particuliers de détruire à peu près tout pour un certain montant. Une manière de disparaître ou de considérer son cheminement comme un ensemble de déchets à traiter. On trouve aussi l’achat de numéros de cartes bancaires ou de « clones » (copies de cartes bancaires avec le code PIN fourni pour pouvoir l’utiliser en magasin ou pour des retraits), le blocage total des communications téléphoniques et internet d’une entreprise ou d’un particulier pour un prix allant jusqu’à 20 euros par jour, un service standard donc ; la mise sur écoute électronique d’un individu avec toutes les informations disponibles  sur un serveur privé ; la disparition mystérieuse d’une personne d’une ou de toutes bases de données : disparition de la base de données de la sécurité sociale, de son compte en banque, de sa scolarité (Pour une dizaine de millier d’euros) ; l’achat de diplômes, la plupart du temps avec inscription dans les bases de données de la fac/école concernée, rendant le tout indétectable (2000-3000 euros environ pour un Master 2 à la Sorbonne), procédure que ne connaissaient pas les braves Cambadélis et Dati ni l’ancienne ministre conquise par l’anglobal, Geneviève Fioraso.

En résumé, le deep web se présente, d’un certain point de vue, comme une entreprise triple d’apoptose, de panoptisme à usage privatif et de refonte de traces. Une formidable machine à produire de la fiction mais sous les atours du réel. Une réalité qui se noue sur la relation entre sphère virtuelle et actualisation dans laquelle toute identité flotte dans un élément perpétuellement amniotique.

D’un autre côté, les bibliothèques du Deep Web, militent pour une diffusion sans limite de l’information et il est toujours possible de télécharger des dizaines de milliers de livres et documents piratés ou non. Il s’agit donc d’une entreprise formellement illégale mais essentielle à l’innovation et à la création scientifique. Le deep web est alors la soupape nécessaire au mythe juridique de la mise en brevets et en propriétés de la noosphère.

« Pour qui veut faire de la veille économique ou scientifique, il est difficile de se passer de surveiller le deep web », relève Christophe Asselin, analyste pour Digimind, un éditeur de logiciels de veille stratégique. Tout commence par l’identification des sources, c’est-à-dire les pages web où les informations échangées concernent, de près ou de loin, le secteur économique et les lieux où évolue l’entreprise. Les mouvements d’un groupe paramilitaire peuvent être suivis, en théorie, avec tout autant de précision sur le deep web que sur le terrain. En pratique, Daech semble échapper à cette omniscience. Une fois les sources repérées, un système de tracking et d’alerte, par mots-clés, est mis en place. En plus, une surveillance humaine est indispensable pour repérer la création de nouvelles pages mais un cyborg pourra faire l’affaire voire un chimpanzé mutant.

Des sites hyperspécialisés échappent aussi aux grands moteurs de recherche. Ainsi, « une grande entreprise innovante a constaté que ses propres salariés, des ingénieurs, se vantaient un peu trop de leurs travail sur un forum de connaisseurs », note Christophe Asselin. Une activité online anodine mais qui peut avoir de graves conséquences sur le retour sur investissement d’une entreprise car la liberté ne doit pas échapper à la forme-marchandise, seul équivalent universel et celle-ci suppose l’impératif du droit de propriété et de prédation du travail salarié.

Un laboratoire de l’armée américaine a présenté dans le courant du mois de février 2015 Memex, un programme de recherche internet capable d’aller explorer ce type de pages web. « Certains estiment que Google, Microsoft et Yahoo ne donnent accès qu’à 5% du contenu du Web » commente à ce sujet Chris White, un ingénieur de la Darpa, une agence du département de la Défense des États-Unis, et créateur du programme. John Brown, un autre ingénieur n’a rien déclaré, ni même Franck Yellow.

Ce moteur de recherche établit des liens. Les relations sont ensuite représentées sous forme de graphiques, de cartes ou de frises chronologiques. « Nous voulons que les résultats de recherche s’adaptent aux utilisateurs, et non le contraire » affirme Chris White qui a pris acte de l’analphabétisme relatif du monde des geeks. Pour les plus lettrés des membres des forces de l’ordre, il est prévu des stages de formation sur la théorie des graphes.

En acte, le fichier robots.txt agit comme le “cerbère” d’un site Web. Quand un moteur de recherche “crawle” un site (c’est-à-dire qu’il recherche à l’intérieur des pages disponibles sur ce dernier la réponse à la requête d’un utilisateur), le fichier robots dudit site va lui dire à quelle page il a accès et quelles pages lui sont interdites. Cela ne signifie pas que celles-ci ne sont pas accessibles à l’utilisateur si celui-ci possède un lien direct vers ces dernières.

En ignorant le fichier robots.txt, Memex fait une indexation plus complète des parties cachées du site. Il va également essayer d’accéder aux parties cachées du Web ou accessibles uniquement par lien direct (cela inclut aussi les sites en .onion accessibles par TOR). Pour ce faire, le moteur de recherche semble fusionner les fonctionnalités de plusieurs outils différents : les capacités de recherche/crawl/reconnaissance d’images de Google, avec la différence que Memex peut fouiller de façon plus précise dans le texte, les images et les photos (avec la possibilité de décoder un terme ou un numéro), les coordonnées de géolocalisation (latitude/longitude) ; Les capacités de data vizualisation de Gephi, car Memex n’affiche pas ses résultats sous forme de titres, d’URLs et de chapô, à la manière de Google, mais sous forme de graphique ; les fonctionnalités de traitement de données d’Analyst’s Notebook, outil d’investigation permettant de trier les données disparates, d’identifier des personnes, de comprendre des structures de réseaux et d’analyser des données complexes (numéros de téléphone, adresses…).

Dans le cas de Memex, la fonctionnalité de reconnaissance des images semble par ailleurs extrêmement puissante. Pour un nombre important d’acteurs, le recours aux messages via images permet de rester sous le radar de la surveillance. Memex est capable de déchiffrer ce qui est écrit sur un papier ou repérer des motifs récurrents (par exemple le papier-peint d’un hôtel).

Memex n’est pas sans rappeler Palantir dont la technicité et le coût d’installation (10 millions de dollars) fait qu’il est réservé aux Etats ou aux services de renseignement. Il en sera de même pour Memex, qui sera utilisé par les forces de l’ordre dans le cadre bien défini des enquêtes.

Il existe des sociétés françaises capables de crawler le Web profond à la manière de Memex. C’est le cas de CybelAngel, lauréate du prix de l’innovation du Forum International de la Cybercriminalité 2014, dont la solution scrute le Web profond pour prévenir de la fuite des données sensibles. Pour autant, le cas de Memex est différent car il flotte sur un vide juridique : celui-ci ne part pas à la recherche de données qui appartiennent à une entreprise mais va explorer les données non-propriétaires (nom, adresse, numéro de téléphone…) et ce sans mandat, tant que ces données sont disponibles de façon publique, c’est-à-dire non protégées par un mot de passe.

Atlantico/ Thomas Martin / Aurore Widner / Les Echos / David Louvet-Rossi / Diplomatie Digitale/BAM


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Catégories

%d blogueurs aiment cette page :