Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

 
  • #c
  • #con
  • #conte
  • #contenu
RSS: #contenu_dupliqué

#contenu_dupliqué

  • Stéphane Bortzmeyer @stephane CC BY-SA 13/07/2011 12:41
    5
    @fil
    @aris
    @samizdat
    @gblin
    @supergeante
    5

    Les #autoblogs sont à la mode. L’idée est de dupliquer le contenu des sites Web, pour prévenir une éventuelle censure. La technique la plus courante est de reprendre le flux de syndication.

    Un logiciel qui le fait, VroumVroumBlog http://sebsauvage.net/streisand.me

    Un article de synthèse en français http://sebsauvage.net/rhaa/index.php?2011/07/12/20/38/27-oyez-oyez-

    Des instructions pour #Wordpress http://www.fansub-streaming.eu/blog/creer-un-wordpress-auto-alimente-par-flux-rss.html

    Bref, faut-il mettre #SeenThis en autoblog ?

    • #Google
    • #webmaster
    • #Wikileaks
    • #Van Jacobson
    Stéphane Bortzmeyer @stephane CC BY-SA
    • Fil ☂ @fil 13/07/2011 13:10

      vroumvroum a le mérite d’être très simple ; mais il stocke ses données sous forme sérialisée dans un pauvre fichier (même pas sqlite), je doute qu’il réussisse à tenir la charge… cela dit l’idée de dupliquer la base et d’avoir un serveur de backup paraît comment dire… indispensable

      Fil ☂ @fil
    • Martin Korolczuk @martin 13/07/2011 15:42

      Je t’invite à relire ton propre et très récent article :

      Van Jacobson et le réseau centré sur le contenu
      ►http://www.bortzmeyer.org/van-jacobson-ccn.html
      Un problème courant des nouveaux systèmes de nommage est la sécurité. Aujourd’hui, je vais confiance à http://www.rue89.com/planete89/2011/07/12/baleines-algues-moules-un-ocean-radioactif-au-large-de-fukushima-213849 parce que les protocoles Internet garantissent que ce contenu vient bien des serveurs de Rue89. Dans un réseau « orienté contenu », on perd cette garantie.

      Maintenant, les autoblogs, du moins partiels, on en fait tous ici et là, à coups de tweets aux citations partielles, ou aux citations figurant dans les « seen these » et autres facebook, delicious et j’en passe.

      Pour autant, il est prudent de ne pas perdre de vue que cela reste contraire aux consignes aux webmasters de Google, qui lutte désormais officiellement contre les fermes de contenus, dont l’un des principaux outils reste la duplication massive de contenu :

      Contenu en double
      http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=66359
      Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. [...] Dans certains cas cependant, le contenu est délibérément dupliqué entre les domaines afin de manipuler le classement du site par les moteurs de recherche ou d’augmenter le trafic. [...] Cependant, si nous estimons qu’il s’agit de pratiques trompeuses et retirons en conséquence votre site de nos résultats de recherche, revoyez votre site.

      Une attaque désormais fréquente de « negative SEO » qui donne certains résultats (pas systématiques, ni très évidents, mais tout de même) est de copier à outrance un site mieux classé pour laisser croire à Google de sa volonté de manipuler ses résultats et le voir ainsi plonger dans les abîmes des résultats de recherche.

      Concrètement, le contenu dupliqué fait partie des problèmes rencontrés par Stack Overflow, dont le contenu est sous licence libre, problème abordé ici :

      http://www.codinghorror.com/blog/2011/01/trouble-in-the-house-of-google.html
      Syndicating our content is not a problem. In fact, it’s encouraged. [...] However, implicit in this strategy was the assumption that we, as the canonical source for the original questions and answers, would always rank first.

      Or, Stack Overflow a commencé à apparaître après ses copies. D’où problème.

      #autoblog #spam #ferme_de_contenu #stack_overflow #seo #google #copie #contenu_dupliqué #contenu

      • #Content-Centric Networks
      • #Google
      • #Japon
      • #Van Jacobson
      • #search results
      • #search engine
      • #Apple iPhone 4 Smartphone
      • #Yahoo
      • #Amazon
      • #search terms
      • #Matt Cutts
      • #nord-est du Japon
      • #search engine
      Martin Korolczuk @martin
    • Stéphane Bortzmeyer @stephane CC BY-SA 13/07/2011 16:27

      Officiellement, Google n’aime pas cela (ils l’appellent « duplicate content »). Faudra-t-il choisir entre résilience et référencement ?

      Stéphane Bortzmeyer @stephane CC BY-SA
    • Stéphane Bortzmeyer @stephane CC BY-SA 13/07/2011 16:29
      @martin

      @Martin Korolczuk : OK, je vais signer les articles de mon blog avec PGP :-)

      Stéphane Bortzmeyer @stephane CC BY-SA
    • bohwaz @bohwaz ART LIBRE 14/07/2011 13:35
      @fil

      @fil unserialize est très rapide. Mais par contre quand le fichier de données va commencer à grossir, ça va devenir plus lent (au-delà du méga ça commence à se voir), surtout pour une question d’utilisation mémoire, car pour accéder à UNE donnée du fichier, il faut tout dé-sérialiser et stocker dans un tableau. Donc c’est pas très efficace. De même pour faire de la recherche, c’est pas génial. Donc oui SQLite serait bien mieux adapté. Je pense regarder pour faire une version SQLite de ce truc dans les prochains jours. En plus ça s’exporte/importe mieux une base SQLite, et ça peut marcher avec de multiples langages, alors que le format sérialisé de PHP n’est pas très répandu.

      bohwaz @bohwaz ART LIBRE
    • bohwaz @bohwaz ART LIBRE 14/07/2011 23:18

      Et voilà : http://blogs.kd2.org/bohwaz/?2011/07/14/369-auto-blog-vroumvroumblog-et-effet-streisand

      bohwaz @bohwaz ART LIBRE
    • Fil ☂ @fil 15/07/2011 11:54
      @bohwaz

      bravo @bohwaz ; l’idéal serait de passer ça sur github par exemple

      Fil ☂ @fil
    • Martin Korolczuk @martin 15/07/2011 14:38
      @stephane

      @stephane Oui, la signature PGP serait une bonne idée, bien que dans la pratique, à défaut d’outils grand public, elle serait totalement inutile.

      Ceci dit, il y a d’autres solutions pour tenter de rattraper le désastre du contenu dupliqué sur le référencement du site à son origine : imposer, de par la licence, un lien vers l’URL d’origine, avec éventuellement les balises telles que celles détaillées sur :

      What is Schema.org?
      http://schema.org

      This site provides a collection of schemas, i.e., html tags, that webmasters can use to markup their pages in ways recognized by major search providers. Search engines including Bing, Google and Yahoo! rely on this markup to improve the display of search results, making it easier for people to find the right web pages.

      Pour faciliter le déploiement de tels liens, il faudrait les inclure dans le contenu original, et réclamer qu’ils soient conservés lors de la duplication.

      • #Google
      • #Yahoo !
      • #search engines
      Martin Korolczuk @martin
    • Aris @aris CC BY-SA 16/07/2011 02:37
      @bohwaz

      @bohwaz

      Beau travail ! Et belle idée

      J’aurais juste un regret que la feuille de style soit incluse dans une fonction PHP. Ce qui fait qu’en cas de “customisation”, celle-ci est potentiellement perdue lors d’une éventuelle mise à jour du script...

      Aris @aris CC BY-SA
    • kris_fr @kris_fr CC BY 4/01/2013 14:54
      @aris

      @Aris
      Tu peux tester cela qui devrait répondre à ton souhait de « customisation » - http://xoofoo.svn.sourceforge.net/viewvc/xoofoo/autoblog/trunk

      • #PHP
      • #le formulaire d’ajout de site
      • #Directory
      kris_fr @kris_fr CC BY
    Écrire un commentaire