Duplicate Content - Présentation
décembre 22, 2008 par Julien
Catégorie Référencement
Présentation
Dans le but de ne pas présenter des résultats identiques dans les SERPs, Google a depuis longtemps mis en place des filtres pour lutter contre ce qui est généralement appelé le duplicate content. Longtemps, et encore aujourd’hui, et bien que Google se soit souvent exprimé à ce sujet, le duplicate content reste perçu par beaucoup comme une pénalité, alors que ce n’est bien évidement pas le cas.
Deux types de duplicate content
Il n’existe pas un, mais deux types de duplicate content. Le premier concerne les pages identiques qui différent seulement de leur url. Dans ce cas, comme Google l’explique très bien, ils considèrent les pages dupliquées comme une seule page à laquelle ils attribuent l’url de celle qui leur parait la plus représentative. Cette dernière bénéficiera également d’un report vers elle des propriétés des autres urls comme le PageRank. (C’est exactement comme si tous les différents liens n’étaient qu’un seul et même lien pointant vers celle qui pour Google fait office de référence). Le second type de duplicate concerne les copies partielles de contenu. C’est un filtre qui est activé en aval juste avant l’affichage des résultats et qui en cas de copies détectés vous affichera en bas de page “relancer la recherche en incluant les pages ignorées”. Entrons un peu maintenant dans les détails.
Le premier filtre anti duplicate content
Agissant en amont, durant la phase d’indexation, l’application de ce filtre est souvent causé par la présence de plusieurs urls menant vers le même contenu. Les exemples sont nombreux :
- Site accessible avec et sans “www“.
- Site renvoyant la même page avec ou sans “index.html” à la fin.
- Appeler une même page avec deux noms différents.
Les solutions : les corrections à apporter sont différentes selon chaque cas. Pour le premier problème, la solution la plus simple est de renseigner l’url principale de GWT (Google Webmaster Tools). Pour le second on utilisera en général des 301. Enfin dans le dernier cas, on veillera surtout a avoir une structure de liens homogène sur l’ensemble de site. Souvent Google s’en sortira très bien tout seul.
Le second filtre anti duplicate content
Google veille à bien afficher des résultats différents dans ses SERPs. Si deux pages portant le même texte devaient remonter sur une recherche, Google n’en affichera qu’une seule tout en vous présentant à la fin la possibilité de relancer votre recherche en affichant le contenu ignoré. Ce filtre est d’autant plus efficace pour des titres et metas identiques.
Le choix du résultat à afficher est aux dernière nouvelles basé sur le PageRank bien que Google parle parfois de l’historique d’indexation. Dans les faits cette prédominance du PageRank dans ce choix entraine souvent la dépréciation par Google de contenu originaux aux profits de sites mieux implantés. C’est un point qui dans l’avenir pourrait changer.
Un moyen bien connu des référenceurs blackhat pour échapper a ce filtre est de suffisament modifier leur texte pour que la correspondance entre l’original et la copie ne puisse pas être établie. Ce n’est pas vraiment le sujet de cet article mais le filtre anti duplicate de Google est relativement peu efficace (même quand il s’agit de textes identiques non retouchés).
Devez-vous toujours avoir peur du duplicate content ?
Oui et non. Non, car au risque de me répéter le duplicate content n’est pas une pénalité. Dans la majorité des cas Google s’en accommode très bien sans que cela vous soit préjudiciable. Oui, car le filtre est imparfait et qu’il privilégiera les gros sites au détriment du votre. Qui plus est si vous avez une quantité trop importante de duplicate cela peut avoir des effets indirects négatifs, comme par exemple sur l’indexation de votre site. Enfin nous ne parlons ici que de duplicate involontaire. Si votre site est basé sur la copie de contenu vous risquez à moyen terme les foudres de Google pour non respect de ses guidelines.
Références
[ 1 ] - Demystifying the duplicate content penalty - fr.
[ 2 ] - Une excellente analyse du site Rankspirit.
[ 3 ] - Compléments d’information du centre d’aide aux webmasters.
Nuage de tags et référencement
décembre 16, 2008 par Julien
Catégorie Référencement
Suivant presque aveuglément les recommandations de Google (vos pages ne doivent pas ressembler à des pages de résultat, évitez le duplicate content), beaucoup de référenceurs suggèrent de ne pas les utiliser, ou à défaut, de les mettre en nofollows avec du disallow sur les pages pointées. Mais ces pages sont-elles tellement nuisible à votre référencement ?

Principalement deux problèmes sont souvent évoqués :
- Les pages pointées par des tags s’apparentent trop à des résultats de recherche.
- Elles sont génératrice de duplicate content.
Déjà, d’une part, c’est rarement les deux à la fois, sauf erreur de conception flagrante (tag = catégorie), dans le cas de wordpress par exemple soit vous faites un usage pertinent de la balise more, et le risque de duplicate sera très faible, mais les pages ressembleront à des pages de résultats, soit vous n’en usez pas et vous générerez du duplicate, avec des pages souvent moins optimisées pour les tags en question.
Mais de toute façon, j’ai envie de dire : et alors ?
Pour les pages type “résultats”
Concernant ces pages, qui sont par exemple légions sur les sites de E-commerce, les voyagistes en ligne ou les comparateurs de prix (et qui remontent très bien), cela fait longtemps qu’on sait ce que Google en pense. Ils ont déjà par le passé tentés de leur donner une importance moindre dans les résultats de recherche (Avec comme double effet kiss cool un avantage presque évident pour les liens sponsorisés de la page). Le résultat fut sans appel. Une expérience utilisateur moindre et un taux d’abandon plus important. Les visiteurs ne cliquaient pas plus sur les liens payant mais allaient juste voir ailleurs ou plus bas dans les résultats. Et il n’y a rien d’étonnant à cela. Si vous tapiez “voyage marrakech” et que Google vous proposait de suite la meilleure offre possible, ne voudriez vous pas tout de même consulter les offres concurrentes ? Sauf abus non équivoque, style annuaires fourre tout, ou site d’agrégation, vos pages type “résultats” passeront encore de beaux jours dans les SERPs.
Pour le duplicate content
Les problèmes de DC, notamment liés aux tags, font parties de ces innombrables mythes et légendes qui peuplent l’univers imaginaire des référenceurs. Heureusement Google à récemment fait un point la dessus, que certains n’ont probablement pas lu, ou du moins pas encore intégrés. La aussi, sauf abus non équivoque il n’existe pas de pénalités dues au duplicate content. Seulement quelques effets indirects plus ou moins observables, qui peuvent être préjudiciables quelquefois, mais qui sont insignifiant dans la grande majorité des cas.
Aussi les critiques faites sur l’intérêt SEO d’un nuage de tags sont pour la plupart infondées. Il n’empêche qu’un trop grand nombre de tags, ou un nuage mal construit, ne sont pas une bonne chose. D’ou la réponse que je vais tenter d’apporter à cette seconde question : Qu’est-ce qu’un bon nuage de tag ?
Nuages de tags et référencement ne sont pas directement liés. Un nuage de tags n’est qu’une mise en forme particuliaire de liens, et afficher des liens déjà existant sous la forme d’un nuage de tags ne changera rien en terme de référencement. Pour autant, le suivi des quelques conseils qui vont suivre peut s’avérer pertinent.
N’ayez pas trop de tags dans vos nuages
Il est souhaitable de ne jamais avoir trop de liens sur ses pages. Aussi, évitez les nuages de tags à rallonge avec 200 mots clés. Un nuage avec entre 30 et 50 mots clés est préférable, bien que cela dépende de nombreux paramètres et de la structure de votre site, mais c’est le choix à faire dans le cadre général. Par exemple, si vous utiliser un blog sous Wordpress. Un nuage de tag trop important va créer un réseau trop dense de liens, au détriment de vos posts.
Structurez vos tags
Il est bon de définir à l’avance les tags que vous aller utiliser (une trentaine), tout en vous laissant l’option d’en rajouter ensuite en fonction des besoins. Il existe, la aussi pour Wordpress, d’excellent plugins de gestion de tags. Cumuler des tags singulier / pluriel, c’est avoir plusieurs pages en concurrence pour les mêmes mots, et générer inutilement du duplicate. Pour finir, vos tags ne doivent pas avoir le même nom que vos catégories. Ils servent entre autre à étendre votre nombre de mots clés, et à réaliser des liens transversaux entre vos catégories. Vous pouvez par exemple envisager un nuage de tags “marques” pour un site de vente en ligne, ou “top recherches” pour un site d’informations…
Économisez vos liens, et multipliez vos nuages
Si vous avez par exemple une page lié au tag d’un nuage qui remonte en première position, ajouter une nouvelle page avec le nuage et le tag est contre productif. C’est un lien gaché qui ne vous apportera pas plus de visibilité que s’il n’existait pas. Pour cette raison, et d’autres, il n’est pas souvent souhaitable que votre nuage soit présent sur toutes vos pages. La home, et le haut de la navigation, suffisent en général amplement.
Pour augmenter l’étendue de vos mots clés, vous pouvez envisager de créer des sous nuages. Idéalement dans cette optique, le haut de la navigation, et les pages pointées par les tags porteront le même nuage principal, par contre les pages liées par les pages pointées par les tags contiendront elles un sous nuages, le plus souvent en relation avec leur nuage parent. Idéalement, afin de réaliser des optimisations ponctuelles du linking, on envisagera la possibilité de liens transversaux entre les nuages.
Utilisez le balisage sémantique
Généralement, les nuages de tags utilisent des styles pour leur mise en forme. Mais rien ne vous empêche de les optimiser en mettant en emphase le contenu. Du “strong” pour les plus important, ou mieux quand ils sont en rapport avec la page que l’utilisateur visite, et des “em” pour les nouveaux liens par exemple, afin de les faire ressortir et leur apporter plus de trafic.
Pour conclure, rapellez vous l’essentiel. Les nuages de tags ne sont que des liens. La question que vous devez vous poser n’est pas : “Puis-je réaliser un nuage de tag pour améliorer mon référencement ?” Mais il peut par contre arriver que la solution “nuage de tags” réponde à des questions comme : “Comment intégrer cette structure de liens de façon agréable ?”, “Comment optimiser le positionnement de ce top recherches ?”, “Comment étendre facilement le champ de mes mots clés ?”, “Comment créer une sous structure de pages qui puissent dynamiser le positionnement de pages déjà existantes ?”… Quelquefois le nuage sera une bonne réponse, quelquefois non. Mais n’oubliez jamais d’accorder beaucoup d’importance à la structure des liens, et à celle des landing pages de ces tags. Les nuages de tags ne sont pas préjudiciables en eux même, par contre, mal pensés, mal construit, ils ne sont pas toujours souhaitables.
Google Friend Connect devient public
décembre 8, 2008 par Julien
Catégorie Réseaux sociaux
La réponse de Google à Facebook ne s’est pas faite attendre. Hasard du calendrier ou non, Google vient enfin de rendre public son Google Friend Connect.
Si le but recherché par ces deux services (Facebook Connect et Friend Connect) est assez similaire, l’approche elle est totalement différente. Les widgets proposés par Google me semblent très simples à intégrer mais assez restrictifs, à l’inverse les API d’Opensocial et Facebook Connect sont plus complexes.
Voici deux widget Friend Connect pour vous faire une idée. Le premier pour s’inscrire sur presse agrume et le second pour ajouter des commentaires. On regrettera que pour le moment les widgets ne soient pas traduis.
Lancement de Facebook Connect
décembre 8, 2008 par Julien
Catégorie Réseaux sociaux

Dans la guerre sans merci qui oppose Facebook au reste du monde (OpenId, Opensocial… et tout les sites liés), la célèbre firme de Palo Alto vient enfin de rendre disponible son tant attendu Facebook Connect.
Sur le principe, cela permet aux site de votre choix qui le proposent d’accéder à certaines informations de votre réseau social, et de publier dans votre flux d’activités. CBS, CNN, Hulu, Twitter, digg et de nombreux autres sites sont ou vont très prochainement devenir compatible avec Facebook Connect.
En plus de cela, Facebook ne chôme pas. Une nouvelle marketplace va voir très prochainement le jour, et de nouvelles possibilités en matière de vidéo viennent d’apparaître comme la HD et la possibilité d’exporter ses vidéos à l’extérieur de la plateforme (comme le permettent par exemple Youtube ou Dailymotion).
Plus belle la vie - Mon cul !
décembre 1, 2008 par Julien
Catégorie Tribune libre
Petit billet en forme de coup de gueule, pour dénoncer les amendements récents de la réforme de l’audiovisuel qui visent à augmenter hypocritement la redevance télé en en élargissant l’assiette à des personnes qui ne devraient pas être concernées.
Sous peu, si l’amendement passe, toute personne possédant un ordinateur susceptible de recevoir la télévision, devra s’acquitter de cette taxe. Que vous la regardiez ou non.
Le député Jean Dionis du Séjour, le brillant esprit à l’origine de cette loi, voudrait également que les téléphones portables y soient assujettis. Il voudrait également instaurer une taxe payable par tout revendeur de téléviseurs, ordinateurs, ou téléphones portables pouvant recevoir la télévision, à hauteur de 0,9% du chiffre d’affaire.
Si encore cet argent était utilisé pour aider des personnes ou des sociétés qui en ont réellement besoin en cette période de crise… Réjouissons nous il participera à financer ces programmes merveilleux que sont “plus belle la vie”, “trente millions d’amis”, et “la carte au trésor”.
Google fait renaitre life
décembre 1, 2008 par Julien
Catégorie Tribune libre
Un an après la disparition de LIFE, le mythique magazine américain, Google met en ligne l’ensemble de ses archives photos.
Plus de cent ans d’histoire à revivre en image :
http://images.google.com/hosted/life
Utiliser l’API SimplePie
Il y a quatre ans de cela, Olivier Duffez de WebRankInfo avait écrit un excellent article sur l’intégration de flux RSS avec l’outil MagpieRSS.
Cet outil, fort pratique, permet à un webmaster d’intégrer sur son site des fils de news RSS en provenance de diverses sources, à la manière du célèbre Netvibes. Malheureusement, le projet Magpie ayant été abandonné, le format RSS 2.0 n’est pas totalement supporté, notamment par exemple les enclosures. Heureusement, depuis quelques années, un remplaçant pointe le bout de son bec, il s’agit de SimplePie, tout aussi pratique, et simple d’utilisation, mais en plus compatible avec tout les formats RSS. C’est de lui que nous allons parler.
Tout ce que fait Magpie, SimplePie le fait également, aussi vous pouvez lire l’article d’Olivier pour plus d’informations.
Pour utiliser SimplePie, il vous faut la télécharger. Vous la trouverez sur le site http://simplepie.org. C’est le fichier simplepie.inc sous licence LGPL.
Les fonctionnalités offertes par cette API sont multiples, on a bien sûr entre autres, la gestion d’un cache, mais aussi la possibilité de filtrer le flux en y supprimant certaines publicités, ou des balises et attributs potentiellements dangeureux. Certaines configurations doivent se faire dans le fichier lui même (si vous souhaitez par exemple filtrer une balise supplémentaire), mais la pluparts peuvent se faire directement dans votre code php. En parlant de code, voici un exemple d’intégration :
// adresse du flux qu'on souhaite intégrer. $fichier_xml='http://www.lemonde.fr/rss/sequence/0,2-3208,1-0,0.xml'; // appel de la libraire SimplePie. require 'simplepie.inc'; // création d'une nouvelle instance de la classe SimplePie. $feed = new SimplePie(); // on lui indique quel fichier il doit traiter. $feed->set_feed_url($fichier_xml); // on peut lui interdire de trier par date. true par défaut. $feed->enable_order_by_date(false); // on lui indique le nom du fichier de cache. $feed->set_cache_location('cachenews/'); // on lache la pie. $feed->init(); // Si le flux contient à manger. if($feed->data){ // On défini le nombre d'articles qui nous intéressent. $max=$feed->get_item_quantity(5); // Nous voici au coeur du code d'intégration. for($x=0; $x<$max; $x++) { // On prend le x-iéme item. $item=$feed->get_item($x); // Un peu d'habillage html. echo "<div style=\"width: 290px; text-align: left; padding: 4px; background-color: #FFFFEE; border: 1px solid #CCCCCC; margin: 6px;\"> <a href=\""; // le lien ou pointe le flux. echo $item->get_permalink(); echo "\">"; // le titre du flux. echo utf8_decode($item->get_title()); echo "</a><br />"; // si enclosure, on affiche. C'est le cas du monde. if($enclosure=$item->get_enclosure(0)){ echo "<img src=\""; echo $enclosure->get_link(); echo "\" border=\"1\" style=\"float: left; margin: 4px; margin-top: 8px;\">"; } // Et la description pour finir. echo utf8_decode($item->get_description()); echo "</div>"; } }
Voila, c’est on ne peut plus simple. Pas vraiment de commentaire à rajouter sur le code en lui même, si ce n’est ici l’utilisation de utf8_decode pour afficher le texte correctement (fonction de l’encodage de votre page). Comme Olivier, je vous conseille de mettre ce code dans une fonction dédié, la seule variable étant le fichier à parser. A noter que le code suppose ici que votre enclosure soit une image, ce qui ne sera pas souvent le cas en général.
3 petites astuces référencement
novembre 23, 2008 par Julien
Catégorie Référencement
Présentation
Ce billet présente une série de quelques conseils, tips, et bonnes pratiques qu’il est bon de connaitre en référencement.
1. définissez en amont le format de vos urls.
Choisir un format d’url n’est pas anodin. Si Google se souci effectivement peu de la présence de mots clés dans vos urls (même si cela reste un facteur d’optimisation), un format bien choisi pourra vous faciliter le travail par la suite, comme l’utilisation de Google Analytics, ou par exemple l’usage de la commande site. Si vous nommez par exemple toutes vos pages sous la forme :
http://www.monsite.com/categorie/identifiant_de_page.html
il vous sera plus facile de savoir approximativement combien de pages sont indexées dans une catégorie particulière :
site:www.monsite.com/categorie/
que si vous aviez nommé vos pages :
http://www.monsite.com/identifiant_de_page/categorie.html
Difficile de revenir en arrière par la suite.
Notez également que les urls trop longues restent clairement déconseillées, et que la plupart risquent au mieux de se retrouver dans l’index supplémentaire de Google.
2. découvrir les pages récemment indexées.
Paramètre relativement peu connu, mais assez pratique, “as_qdr” vous permettra de connaitre les dernières pages indexés pour un mot clé donné, ou combiné à la commande site, les dernières pages indexés d’un site. Ce paramètre peu prendre les valeurs suivantes :
as_qdr=d - pour un jour.
as_qdr=w - pour une semaine.
as_qdr=m - pour un mois.
as_qdr=y - pour une année.
On peut spécifier le nombre de jours, semaines, mois, ou années voulus en le rajoutant après la lettre indicative. Exemple :
http://www.google.fr/search?q=presse+agrume&hl=fr&as_qdr=d5
3. Connaitre le nombre de pages dans l’index principal.
Google possède deux index, l’un principal, dans lequel il va généralement chercher ses résultats, l’autre anciennement appelé “index supplémentaire” qu’il interroge quand la requête sur l’index principal de renvoie pas suffisament de résultats. Le premier contient grossièrement les pages en lesquelles Google à confiance, et qu’il juge suffisament pertinentes, le second contient tout le reste.
Une commande “site” renverra approximativement le nombre de pages indexées par Google contenues dans ces deux index. Connaitre le ratio entre les deux index est une information importante. Il est souhaitable qu’il y ait bien sûr le moins de pages possibles dans l’index secondaire.
Il existe plusieurs astuces pour connaitre ces chiffres, comme par exemple faire une requête “site” classique en la terminant par “/&”.
L’argument diagonal de Cantor
novembre 23, 2008 par Julien
Catégorie Mathématiques
Dans l’article sur l’hypothèse du continu nous avons brièvement présenté l’argument diagonal dans une version assez peu intuitive.
Pour rappel :
considérons une liste infini de nombres entre 0 et 1. La question étant, cette liste peut-elle contenir tout les réels ? La réponse étant évidement non.
En effet, raisonnons par l’absurde, et supposons que oui. Notons A(n) le n-iéme nombre, et Φn(m) la m-iéme décimale de A(n). Soit β le nombre dont la n-iéme décimale soit égale à 1 – Φn(n). Si ce nombre était dans la liste il existerait un entier K tel que quel que soit n, 1 – Φn(n) = Φk(n). En prenant n = K, on obtient 1 = 2Φk(K), donc 1 est un nombre pair. Ce qui est absurde. Donc ce nombre ne peut être dans la liste.
Nous allons ici en présenter une version identique sur le fond, mais certainement plus claire :
- Nous voulons prouver que l’ensemble des réels n’est pas dénombrable. C’est à dire qu’on ne peut dresser une liste infini de nombre qui les contiennent tous. Nous allons réaliser cette démonstration sur un sous ensemble de R, celui de tous les réels compris entre 0 et 1. En effet, si ce sous ensemble n’est pas dénombrable, il est évident que l’ensemble complet ne l’est pas non plus.
Supposons dressé une telle liste :
L’ordre des nombres de cette liste n’a aucune importance, le raisonnement qui va suivre étant valable pour toute liste infini de réels indexée par des entiers.
1. 0,73627477283883…
2. 0,87824246287462…
3. 0,79872772362783…
4. 0,12238382897894…
5. 0,23889746726784…
6. 0,43984928478479…
7. 0,03982874874746…
…
En prenant le premier chiffre du premier réel de notre liste, puis le second chiffre du second réel, et ainsi de suite, nous formons le nombre réel suivant 0,7783997…
Maintenant considérons un nombre ou chaque n-ième terme après le zero diffère du n-ième terme de notre nombre de référence. Ex : 0,8894008… Ce nombre est bien un réel. Il doit donc avoir une position dans notre liste. Soit N l’entier qui désigne cette position.
Nous voyons bien que l’existence de ce nombre à la position N est impossible. Son N-ième chiffre doit être par construction différent de lui même, ce qui est absurde.
Conclusion : tous les nombres réels ne peuvent être listé par une liste d’entier, fusse-t-elle infini.
J’admets volontiers qu’à première lecture cette démonstration puisse laisser circonspect. Pourtant elle est tout ce qu’il y a de plus rigoureux et logique. Elle laisse pourtant une impression étrange. Peut-être ne nous attendions pas à ce qu’une liste infini ne puisse tout contenir.
Les implications de cet argument sont énormes. Mais nous aurons peut-être l’occasion d’en discuter une prochaine fois. En attendant je vous invite à consulter l’article de Wikipedia pour approfondir le sujet.
Audition
Mes dix films préférés (3).
Mes 10 films préférés, parmi des centaines de chefs d’œuvres. Comme tout classement celui-ci n’est pas parfait, et j’ai été contraint de laisser en chemin d’excellents films comme : Matrix, Leon, American history X, Darkcity, Blade runner, Rounders, La ligne verte, Heat, Million dollar baby… Mais il reflète au moins un peu mes gouts en la matière.
En 8ème place donc : audition.
Synopsis
Aoyama, 42 ans, est producteur de films. Sa femme est décédée il y a sept ans, mais il vit toujours sa disparition avec difficulté.
Un jour, suivant les conseils d’un vieil ami, Yasuhisa Yoshikawa, il décide de se remarier et organise une audition pour une série télévisée fictive afin de trouver sa nouvelle compagne parmi les candidates. La dernière à se présenter, Yamazaki Asami, est une jeune femme d’une troublante beauté. Aoyama en tombe instantanément amoureux. Il la rappelle et dîne en tête à tête avec elle.
Quelques jours plus tard, Aoyama lui téléphone à nouveau. Yamazaki est chez elle, prostrée dans l’obscurité. Elle est seule ou presque. Commence alors pour Aoyama une plongée vertigineuse dans un enfer sanglant, dont les retombées seront excessivement douloureuses.
Une réalisation réussie, certes, mais ce n’est pas le caractère le plus intéressant du film. Il est difficile de ressortir totalement indemne de ce film. Takashi Miike éveille de nombreuses questions auxquelles il ne répond pas. Ce qui est habituellement gênant, s’ajoute ici au sentiment de malaise certainement voulu. Un film qui se démarque dans son objectif du cinéma traditionnel : le but n’est plus ici de raconter une histoire, mais de créer une tension à la limite de la sensation physique. But que le réalisateur atteint admirablement.

film audition