Travailler avec les robots, Utiliser efficacement le fichier robots.txt, Limiter l’exploration de contenu avec robots.txt – Google Optimisation pour les moteurs de recherche Guide de démarrage Manuel d'utilisation

Page 21

Advertising

Les bases de l’optimisation

Améliorer la structure d’un sit

Optimiser le contenu

Travailler avec les robots

Optimiser pour les mobiles

Promouvoir un site et analyser les données

Utiliser efficacement le fichier robots.txt

Travailler avec les robots

Un fichier “robots.txt” indique aux moteurs de recherche s’ils peuvent
accéder, et par conséquent, explorer certaines parties de votre site

(1). Ce fichier, que vous devez intituler “robots.txt”, se place dans le
répertoire racine de votre site (2).

Vous souhaitez peut-être empêcher l’exploration de certaines pages
de votre site, car vous estimez qu’elles ne sont d’aucune utilité pour
les utilisateurs lorsqu’elles figurent dans leurs résultats de recherche.
Vous trouverez sur le site des Outils Google pour les webmasters un

générateur de fichier robots.txt

facile à utiliser, qui vous permettra de

créer un fichier robots.txt afin d’empêcher l’exploration de vos pages
par les moteurs de recherche. Remarque : si votre site utilise des
sous-domaines et que vous souhaitez empêcher l’exploration de
certaines pages d’un sous-domaine donné, vous devrez créer un
fichier robots.txt distinct, propre au sous-domaine en question. Pour
plus d’informations sur les fichiers robots.txt, nous vous conseillons le
présent guide du centre d’aide pour les webmasters relatif à

l’utilisation de fichiers robots.txt

D’autres méthodes vous permettent d’empêcher l’affichage de
contenu dans les résultats de recherche.

Limiter l’exploration de contenu avec

robots.txt

User-agent: *
Disallow: /images/
Disallow: /search

Utilisez des méthodes plus sécurisées pour

tout contenu confidentiel

Meilleures pratiques

Contrôlez l’information que les
robots doivent explorer ou pas!

(2) Adresse de notre fichier robots.txt.

Évitez:

Liens

Un générateur de fichier robots.txt

http://googlewebmastercentral.blogspot.com/2008/03/speaking-language-of-robots.html

L’utilisation de fichiers robots.txt

http://www.google.com/support/webmasters/bin/answer.py?answer=156449

Les aspects importants à surveiller pour chacune des méthodes de blocage d’URL

http://googlewebmastercentral.blogspot.com/2008/01/remove-your-content-from-google.html

Ne vous fiez pas simplement aux fichiers robots.txt pour protéger du matériel confidentiel ou privé. En effet, les
moteurs de recherche peuvent tout de même indexer les URL que vous bloquez (en affichant uniquement l’URL,
sans titre, ni extrait) lorsqu’ils indexent des liens vers ces URL au cours d’explorations ailleurs sur le Web (tels que
les journaux de provenance). En outre, des moteurs de recherche non conformes ou illicites qui n’acceptent pas le
“Robots Exclusion Standard” (standard pour l’exclusion des moteurs de recherche) peuvent ignorer les instructions
de votre fichier robots.txt. Enfin, un utilisateur curieux pourrait analyser les répertoires ou sous-répertoires indiqués
dans votre fichier robots.txt et deviner l’URL du contenu que vous souhaitez protéger. Le cryptage du contenu ou
la protection du contenu par mot de passe à l’aide d’un .htaccess sont des solutions plus sûres.

(1) Aucun des robots de moteurs de recherche conformes (signalés par le
caractère *) ne devrait accéder au contenu situé dans /images/ ou à toute URL
dont le chemin d’accès débute par /search, ni explorer ce contenu.

d’autoriser l’exploration de pages ressemblant à une page des résultats de recherche (les

utilisateurs n’aiment pas quitter une page des résultats de recherche, puis arriver sur une autre
page des résultats de recherche sans utilité ou valeur pour eux) ;

d’autoriser l’exploration d’un grand nombre de pages générées automatiquement et contenant le

même contenu ou du contenu très similaire : “Ces 100 000 pages presque dupliquées devraient-
elles vraiment figurer dans l’index d’un moteur de recherche ?” ;

d’autoriser l’exploration d’URL créées suite à l’utilisation de services de proxy.

Protocole d’exclusion des robots

Protocole destiné à empêcher les robots d’exploration, comme
Googlebot, d’accéder à tout ou partie d’un site Web, afin de ne pas
rendre ses informations publiques.

Proxy

Ordinateur servant d’intermédiaire dans une connexion entre un
réseau interne et un réseau externe, ou logiciel doté d’une fonction
semblable.

Vous pouvez par exemple ajouter le paramètre “NOINDEX” à vos
balises meta robots, utiliser votre fichier .htaccess pour protéger par
mot de passe vos répertoires, ou encore accéder aux Outils Google
pour les webmasters afin de supprimer du contenu ayant déjà fait
l’objet d’une exploration. Matt Cutts, ingénieur chez Google, aborde
dans une vidéo très utile, tous

les aspects importants à surveiller

pour chacune des méthodes de blocage d’URL

Advertising