icon/dark/fileicon/dark/foldericon/dark/folde-openicon/dark/hashtagicon/dark/line-graphicon/dark/listicon/dark/localicon/dark/lock

Vous êtes une personne très occupée. Vous gérez un site important avec une équipe restreinte (voire pas d'équipe du tout). Il vous arrive donc de passer à côté de certaines tâches SEO plus avancées. Le crawl, ou l'exploration, de votre site, fait partie de ces choses qui passent facilement à la trappe.

C'est une erreur.

Explorer votre site vous permet de détecter toutes sortes de problèmes techniques qui affectent la manière dont les humains comme les moteurs de recherche interagissent avec vos pages. Explorer votre site vous permet de diagnostiquer, ou d'éviter, toutes sortes de problèmes qui nuisent à l'expérience utilisateur et au SEO :

  1. Contenu dupliqué
  2. Pages cassées
  3. Liens cassés
  4. Redirections invalides
  5. Pages non sécurisées
  6. Pages non indexables

site-crawl-cta

Contenu dupliqué

Quiconque s'occupe du SEO se doit d'être attentif au contenu dupliqué. Et pour une bonne raison : les pages dupliquées sont souvent pénalisées dans les résultats de recherche - pour autant qu'elles y apparaissent seulement ! Même les pages certes uniques, mais hébergées sur des domaines qui contiennent beaucoup de contenu dupliqué peuvent avoir du mal à apparaître en bonne position.
  Lorsque la notion de « contenu dupliqué » a vu le jour, l'accent était mis sur le contenu plagié, copié et syndiqué.

Ceci dit, vous pouvez aussi vous retrouver avec du contenu dupliqué sur votre site dans les cas suivants:

  • En cas de soucis avec votre CMS
  • Sur les sites multilingues
  • WWW resolve
  • Lors d'une migration de HTTP vers HTTPS

Mais ce sont là des problèmes assez techniques. Que faire si vous n'êtes pas un spécialiste?

Explorer votre site, voilà la chose à faire.

Site Crawl analyse les pages de votre site et vérifie leur contenu en les comparant, et l'outil vous avertit lorsqu'il trouve du texte qui se ressemble.
  L'outil vérifie aussi les éléments on-page importants que Google considère comme des indicateurs de contenu dupliqué, comme les balises titre et les meta descriptions.

Les URL canoniques et l'attribut Hreflang

Les URL et les balises canoniques permettent aux moteurs de recherche de trouver la version originale des pages dupliquées. Les balises Hreflang indiquent aux moteurs de recherche les pages à afficher en fonction de la langue de l'utilisateur. Ces balises sont importantes si vous voulez éviter le contenu dupliqué sur votre site.

Si vous avez un site de grande taille qui contient un grand nombre de pages similaires/dupliquées (comme un site d'e-commerce), vous avez sans doute un grand nombre de balises de ce type. À moins que vous n'ayez vraiment rien d'autre à faire, vous n'allez pas vous mettre à vérifier ces balises manuellement. La bonne nouvelle, c'est qu'avec un crawler, vous pouvez identifier tous les exemples de balises canoniques, de même que les exemples de balises canoniques qui…

  • Sont en conflit avec votre sitemap
  • Ne se chargent pas correctement
  • Sont en décalage avec l'URL de l'Open Graph

Les pages et liens cassés

Comme vous pouvez l'imaginer, les pages et les liens cassés ne sont bons pour personne. En envoyant les utilisateurs sur des pages inexistantes ou inaccessibles, vous allez les faire fuir votre site. Par ailleurs, si un trop grand nombre de pages renvoient des codes d'erreur, c'est l'autorité et le sérieux de votre domaine qui vont en pâtir.

Il est capital de vérifier les liens internes car ces liens vont non seulement guider l'utilisateur d'une page à l'autre de votre site, mais ils vont aussi vous servir à disperser votre jus de lien. Ces liens cassés représentent un double problème, puisqu'ils vont nuire aussi bien à l'expérience utilisateur qu'à votre SEO.

Explorer votre site est à peu près la seule manière fiable de vérifier l'absence d'erreurs sur l'ensemble de vos pages et de vos liens. Vous voulez vraiment visiter vous-même chacune de vos pages et cliquer sur chaque lien ?

Je suppose que vous avez mieux à faire.

Les « araignées » (ou crawler) procèdent en accédant à vos pages via vos liens. Elles vont aussi essayer de suivre les liens externes, mais sans réellement crawler ces domaines. Par conséquent, par définition, le crawler SEO va vérifier vos liens internes et externes.
L'outil Site Crawl vérifie le code de statut HTTP pour chaque URL rencontrée. Il vous signale ensuite les URL qui renvoient un code d'erreur qui empêche l'utilisateur d'accéder à la page concernée:

  • Erreurs clients 4xx
  • Erreurs serveurs 5xx
  • Erreurs de redirection 3xx

Les erreurs de redirection

Les redirections, bien qu'elles constituent un code de statut HTTP d'un point de vue technique, sont considérées comme un monstre à nul autre pareil. Cela s'explique par le fait que l'affichage d'un statut HTTP 3xx n'est pas un problème. Les problèmes de SEO concernant les redirections surviennent quand :

  • Une redirection pointe vers une autre redirection (chaîne de redirection)
  • Deux redirections pointent l'une vers l'autre (boucle de redirection)
  • Une redirection pointe vers une URL qui renvoie un code d'erreur (redirection cassée)

Ces erreurs de redirection entraînent un allongement du temps de chargement (chaînes) et des liens morts (redirections cassées). La plupart des navigateurs ne vont même pas laisser l'utilisateur s'aventurer dans une boucle de redirection et préféreront afficher une page d'erreur.

Les attributs HTTP sur les pages HTTPS

Utiliser des URL HTTPS est une bonne idée. Une très bonne idée, même. Ces URL sont plus sûres, pour vos utilisateurs comme pour vous. Et Google les aime bien aussi, puisqu'il va les favoriser dans les résultats de recherche. Vous avez donc bien fait de migrer en HTTPS. Mais avez-vous bien vérifié que toutes vos images et tous vos fichiers CSS et JavaScript ont bien migré aussi ?

Si vos pages sécurisées contiennent des attributs HTTP, l'utilisateur va voir s'afficher un avertissement en rouge à chaque fois qu'il va essayer d'accéder à la page, ce qui est terriblement agaçant. Sans parler du fait que votre site ne sera pas totalement sécurisé. Tout cela ne va pas plaire à Google.

Utilisez l'outil Site Crawl pour vérifier que vous n'avez oublié aucun de ces maudits petits fichiers lors de la migration ou pour identifier ceux à côté desquels vous êtes bel et bien passé. Quand on parle de HTTP dans le HTTPS, même le plus petit fichier peut provoquer de gros problèmes.

Les pages non indexables

Il existe deux moyens d'empêcher Google d'indexer vos pages : les fichiers robots.txt et les balises meta robots. Mais pourquoi vouloir rendre une page, un dossier ou un site non indexable ? Plusieurs cas de figure existent :

  • Pour éviter les problèmes de contenu dupliqué et de contenu peu dense

  • Pour éviter que les moteurs de recherche ne gaspillent leur budget d'exploration pour des pages inutiles

  • Vous préférez que certaines de vos pages ou certains types de fichiers ne soient pas crawlés

Cependant, la tendance à user et abuser de la commande Disallow (ou à s'emmêler les pinceaux avec le joker) et/ou des meta robots est l'une des principales causes à l'origine de la baisse du trafic organique.

Sans parler du fait qu'une erreur dans un seul caractère peut amener Google à refuser d'indexer des parties entières de votre site.

Heureusement, votre explorateur SEO va accéder à votre fichier robots.txt et le lire avant d'explorer votre site. L'outil Site Crawl sait ainsi directement à quelles pages Google ne va pas pouvoir accéder. Et quand le robot arrive sur une page, il vérifie la présence de l'attribut « NoIndex » dans la balise meta robots.

Il vérifie aussi la présence de l'attribut meta robots « NoFollow ». L'attribut « NoFollow » indique aux robots qu'ils ne doivent suivre aucun des liens présents sur la page. Par conséquent, même si la page est indexable, elle ne passera pas de jus de lien et ne renverra pas les araignées vers le reste du site.

Ces pages non indexables ne sont pas des erreurs d'un point de vue technique. Souvenez-vous, on peut avoir de bonnes raisons de ne pas vouloir indexer une page. Mais nous vous conseillons vivement de consulter le volet Indexation de votre rapport d'exploration. Si les URL mentionnées ne vous paraissent pas logiques, vérifiez votre fichier robots.txt et vos éventuelles balises meta robots.

WooRank est là pour vous aider!

L'exploration fait partie de ces aspects du SEO dont beaucoup oublient de tenir compte, surtout s'ils ne sont pas des spécialistes du marketing. Il s'agit cependant d'une étape absolument essentielle si vous voulez mettre le doigt sur les problèmes qui vous empêchent d'apparaître en bonne position dans les résultats de recherche ou éviter que ces problèmes n'apparaissent tout simplement.

Les outils d'exploration sont souvent intimidants, puisqu'ils se contentent de produire une liste d'URL avec leurs attributs correspondants et vous obligent à analyser les résultats par vous-même. C'est l'une des raisons pour lesquelles WooRank a créé Site Crawl – l'outil effectue l'analyse pour vous et vous signale les éventuels points faibles à corriger. Cependant, que vous utilisiez ou non Site Crawl, nous vous conseillons d'explorer régulièrement malgré tout votre site pour éviter que de petites erreurs ne deviennent de gros problèmes pour votre site.