La recherche de page sur Internet se base souvent sur la découverte par des robots desdites pages. Mais tous ne respectent pas les règles de bonne conduite, j’ai donc pour la première fois ce soir banni un robot.
Les robots parcourent le web pour indexer le contenu des pages afin que nous puissions les trouver lors de nos recherche. Chaque site de recherche effectue donc ce travail fastidieux mais en respect de certains règles sans quoi les sites Internet seraient submergés de requêtes de ce type et ne pourraient plus servir les utilisateurs humains.
Dans le principe, ces règles permettent donc une régulation en amont, directement par le robot du moteur de recherche. Si la règle amont n’est pas respecté ou que pour une raison administrative un site web ne souhaite pas être indexé par un moteur de recherche il peut alors indiquer à ce dernier son souhait. Dans la majorité des cas le moteur auquel on a interdit l’accès à tout ou partie d’un site suis scrupuleusement la règle, mais certains robots ne jouent pas le jeu.
C’est le cas de qihoo, robot d’un moteur de recherche chinois qui passe assez régulièrement sur mon blog et de façon assez violente (une page toutes les 3 à 5 secondes, ce qui charge inutilement le serveur et surtout le lien Internet). Après la mise en place d’un règle amicale d’exclusion qui n’est pas respectée, je suis passé à la vitesse supérieure avec une règle d’exclusion stricte du robot QihooBot via une directive mod_rewrite d’Apache.
RewriteCond %{HTTP_USER_AGENT} ^.*QihooBot.*
RewriteRule ^.*html$ /norobots.html [L]
Il n’est pas dans mon habitude de filtrer les moteurs de recherche, même si leur objectif n’est pas toujours très clair, je respecte le travail des futurs Google ou Exalead, mais là c’était trop. Dommage que tout le monde ne joue pas le jeu, en espérant que d’autre moteur de recherche ne suivent pas.
Voir aussi: “Crawl politely or don’t crawl at all“


