Tags

  • Home
  • SEO
  • Tout connaître sur les fichiers robots.txt
Les moteurs de recherche étudient les sites web à l’aide de robots d’indexation. Votre site web peut avoir un fichier robots.txt pour pouvoir référencer une page.

Tout connaître sur les fichiers robots.txt

Pour comprendre la notion de robots.txt, il est tout d’abord nécessaire de comprendre le fonctionnement des robots d’indexation, aussi appelés spiders, ou web crawlers ou bien encore bots ! Ces araignées du web sont des robots créés par les moteurs de recherche. Leurs missions sont de visiter le plus de pages web possibles et d’en mémoriser le contenu et les expressions clés, afin de pouvoir utiliser ces renseignements pour présenter des résultats pertinents aux internautes qui réalisent une requête. C’est ce qui permet à Google d’afficher un nombre phénoménal de résultats en seulement 0.15 secondes !

 

Quand le robot est sur votre site, il va chercher à visiter le plus de pages possible, notamment via les liens hypertexte qu’il va trouver au sein de vos pages, mais aussi via le dossier de votre site internet ; et la première chose que va chercher le robot, en arrivant sur votre site, c’est un fichier robots.txt.

En effet le fichier robots.txt, placé à la racine de votre site internet, est un simple fichier de texte qui indique au robot d’indexation les pages auxquelles il a accès et celles qui ne sont pas nécessaires pour l’indexation du site. Si vous n’avez pas de fichier robots.txt, le robot comprend alors qu’il peut visiter toutes les pages de votre site internet, s’il le désire bien sûr (… oui les robots d’indexation ont leurs humeurs comme des internautes, ils peuvent quitter vos pages si votre contenu ne les intéressent pas !)

Faut-il avoir un fichier robtos.txt ?

Vous allez me dire le principe du référencement n’est-il pas de référencer un maximum de pages ?

Un maximum de pages oui, mais des pages de qualité pour les moteurs de recherche….

En effet dans le dossier de votre site internet, il existe des fichiers qui ne sont pas intéressants pour le moteur de recherche, par exemple des répertoires temporaires ou des pages en constructions, … Ces pages peuvent nuire à votre référencement si elles sont indexées par les moteurs de recherche. Ce fichier n’est donc pas obligatoire mais il est fortement conseillé si vous avez des informations sur votre site dont vous ne voulez pas qu’elles apparaissent dans les résultats des moteurs de recherche.

De plus le fichier robots.txt permet aussi d’indiquer aux robots l’adresse de votre fichier sitemap, si vous en possédez un, ce qui facilite l’indexation des pages de votre site par les robots, et donc votre référencement !

En résumé ne pas avoir de fichiers robots.txt peut pénaliser la visibilité de votre site et en posséder un la favorise. Nous pouvons donc que vous conseiller d’avoir un fichier robotx.txt.

Comment savoir si votre site possède un fichier robots.txt ?

Tout simplement en tapant dans la barre d’adresse de votre navigateur, l’URL de la page d’accueil de votre site suivi de : « /robots.txt »

Par exemple si vous tapez l’adresse suivante : http://www.gazelle-du-web.com/robots.txt ,vous verrez apparaître le fichier robots.txt du blog la gazelle du web :

Le fichier robots.txt

Attention ce n’est pas un moyen de sécuriser votre site

En effet, si le fichier permet d’indiquer aux robots « bien veillant » quelles pages il peut consulter, certains robots ne prennent pas en compte ce fichier. La raison ? Soit ils sont trop anciens pour détecter les fichiers robots.txt, soit ce sont des robots « malveillants » qui cherchent, la plupart du temps, des fichiers d’adresses e-mail afin de les spammer.

Comprendre un fichier robots.txt

Dans un fichier robots.txt il existe deux types de commandes :

  • User-agent : elle correspond à la liste des robots d’indexation que vous autorisez à aller sur les pages de votre site

User-agent : * = Vous autorisez tous les robots à venir sur votre site
Pour connaître la liste de noms des robots : http://www.robotstxt.org/db.html

  • Disallow : permet d’indiquer aux robots les pages qu’ils peuvent visiter ou celles qu’ils ne peuvent pas visiter :

Disallow : => Vous autorisez toutes les pages de votre site
Disallow : / => Vous autorisez aucune page de votre site
Disallow : /dossier/ => Vous n’autorisez pas la visite de ce dossier
Dissalow : /dossier/page => Vous n’autorisez pas les robots à visiter la page