Duplicate Content - Présentation
décembre 22, 2008 par Julien
Catégorie Référencement
Présentation
Dans le but de ne pas présenter des résultats identiques dans les SERPs, Google a depuis longtemps mis en place des filtres pour lutter contre ce qui est généralement appelé le duplicate content. Longtemps, et encore aujourd’hui, et bien que Google se soit souvent exprimé à ce sujet, le duplicate content reste perçu par beaucoup comme une pénalité, alors que ce n’est bien évidement pas le cas.
Deux types de duplicate content
Il n’existe pas un, mais deux types de duplicate content. Le premier concerne les pages identiques qui différent seulement de leur url. Dans ce cas, comme Google l’explique très bien, ils considèrent les pages dupliquées comme une seule page à laquelle ils attribuent l’url de celle qui leur parait la plus représentative. Cette dernière bénéficiera également d’un report vers elle des propriétés des autres urls comme le PageRank. (C’est exactement comme si tous les différents liens n’étaient qu’un seul et même lien pointant vers celle qui pour Google fait office de référence). Le second type de duplicate concerne les copies partielles de contenu. C’est un filtre qui est activé en aval juste avant l’affichage des résultats et qui en cas de copies détectés vous affichera en bas de page “relancer la recherche en incluant les pages ignorées”. Entrons un peu maintenant dans les détails.
Le premier filtre anti duplicate content
Agissant en amont, durant la phase d’indexation, l’application de ce filtre est souvent causé par la présence de plusieurs urls menant vers le même contenu. Les exemples sont nombreux :
- Site accessible avec et sans “www“.
- Site renvoyant la même page avec ou sans “index.html” à la fin.
- Appeler une même page avec deux noms différents.
Les solutions : les corrections à apporter sont différentes selon chaque cas. Pour le premier problème, la solution la plus simple est de renseigner l’url principale de GWT (Google Webmaster Tools). Pour le second on utilisera en général des 301. Enfin dans le dernier cas, on veillera surtout a avoir une structure de liens homogène sur l’ensemble de site. Souvent Google s’en sortira très bien tout seul.
Le second filtre anti duplicate content
Google veille à bien afficher des résultats différents dans ses SERPs. Si deux pages portant le même texte devaient remonter sur une recherche, Google n’en affichera qu’une seule tout en vous présentant à la fin la possibilité de relancer votre recherche en affichant le contenu ignoré. Ce filtre est d’autant plus efficace pour des titres et metas identiques.
Le choix du résultat à afficher est aux dernière nouvelles basé sur le PageRank bien que Google parle parfois de l’historique d’indexation. Dans les faits cette prédominance du PageRank dans ce choix entraine souvent la dépréciation par Google de contenu originaux aux profits de sites mieux implantés. C’est un point qui dans l’avenir pourrait changer.
Un moyen bien connu des référenceurs blackhat pour échapper a ce filtre est de suffisament modifier leur texte pour que la correspondance entre l’original et la copie ne puisse pas être établie. Ce n’est pas vraiment le sujet de cet article mais le filtre anti duplicate de Google est relativement peu efficace (même quand il s’agit de textes identiques non retouchés).
Devez-vous toujours avoir peur du duplicate content ?
Oui et non. Non, car au risque de me répéter le duplicate content n’est pas une pénalité. Dans la majorité des cas Google s’en accommode très bien sans que cela vous soit préjudiciable. Oui, car le filtre est imparfait et qu’il privilégiera les gros sites au détriment du votre. Qui plus est si vous avez une quantité trop importante de duplicate cela peut avoir des effets indirects négatifs, comme par exemple sur l’indexation de votre site. Enfin nous ne parlons ici que de duplicate involontaire. Si votre site est basé sur la copie de contenu vous risquez à moyen terme les foudres de Google pour non respect de ses guidelines.
Références
[ 1 ] - Demystifying the duplicate content penalty - fr.
[ 2 ] - Une excellente analyse du site Rankspirit.
[ 3 ] - Compléments d’information du centre d’aide aux webmasters.














Bonjour,
J’étais totalement passé à coté de cet article … J’en profite pour rebondir sur quelques passages et apporter mon expérience avec ce filtre (je me bat avec depuis le début 2008).
Quote :
le duplicate content reste perçu par beaucoup comme une pénalité, alors que ce n’est bien évidement pas le cas.
>>> Le duplicate content peut-être une pénalité. Quand le contenu du site (sauf site de confiance) dépasse un certain seuil de contenu dupliquée, il chute totalement dans les serps (toute les pages propres ou dupliquées).
Quote :
la dépréciation par Google de contenu originaux aux profits de sites mieux implantés. C’est un point qui dans l’avenir pourrait changer.
>>> C’est clairement un point qui va évoluer, il est impensable que Google favorise un site de confiance par rapport à l’original. C’est qui plus est extrêmement frustrant de se faire dupliquer et d’en subir les conséquences …
Quote :
le filtre anti duplicate de Google est relativement peu efficace (même quand il s’agit de textes identiques non retouchés).
>>> Je suis justement tombé sur un exemple intéressant en ce qui concerne ceci. Apparemment, certains contenus pourraient rester “libres” ou quelque chose comme ça aux yeux du filtre.
Exemple de requête venant des Règles confidentialité : http://www.google.com/search?hl=fr&num=100&q=%22Ce+site+utilise+Google+Analytics%2C+un+service+d%E2%80%99analyse+de+site+internet+fourni+par+Google+Inc.+(%C2%AB+Google+%C2%BB).+Google+Analytics+utilise+des+cookies+%2C+qui+sont+des+fichiers+texte+plac%C3%A9s+sur+votre+ordinateur%22&btnG=Rechercher&lr=
Quote : Non, car au risque de me répéter le duplicate content n’est pas une pénalité
<<< Pour autant, créer des pages qui ne seront pas présentes dans les serp, c’est dommage, surtout si c’est du à une quote de quelques lignes … Ca vite devenir pénalisant (même si ce n’est une pénalité).
Sympa cette article, mais il faudrait préciser dans le dernier paragraphe, que les sites comme les annonces, annuaires, cp, wiki … qui eux sont involontairement rempli de contenu dupliqué (externe), subiront de plein fouet une pénalité. Je pense que pour certains projets, c’est un filtre à prendre en compte des le lancement du site et non pas un simple filtre dont il ne faut se soucier.
Qu’en pensez vous chez Presse Agrume ?
Cordialement, L.JEE.
Je suis assez d’accord.
Cependant je pense qu’il faut bien faire la différence entre le duplicate content non volontaire (affiliation, reprise de flux rss…) qui n’est pas pénalisé, mais peut être pénalisant, et la génération abusive de duplicate content, en faisant du site scraping par exemple, qui elle est contraire aux guidelines, et peut se retrouver sanctionnée.
Les sites de type annonces, annuaire, agrégateurs de news… sont a ma connaissance rarement pénalisés, mais leur structure même est souvent problématique.
Pour autant je n’exclus pas l’existence de pénalisation automatiques au delà de certains seuils, mais en ce qui concerne les sites importants, toutes les pénalités passent généralement pas une analyse manuelle.