• Si vous cherchez un article d’une nullité consternante chez #Numérama, ils ont pensé à vous : #Google crée des chômeurs en faisant fermer des gentilles entreprises dirigées par de courageux entrepreneurs qui n’auront même pas les ASSEDIC (c’est certainement la faute de Google si l’indemnistation du chôme en France est ce qu’elle est).

    http://www.numerama.com/magazine/20439-google-est-il-devenu-totalement-irresponsable.html

    Évidemment, Numérama ne cite pas un chiffre, pas un seul nom d’une de ces entreprises qui ont soi-disant fermé, uniquement parce que Google a changé son algorithme. On se croirait vraiment dans un reportage sur M6.

    Mais ce qui est le plus débile dans l’article est que pas une seule fois, l’auteur n’a pensé que, pour chaque boîte qui a perdu une place dans le classement de Google, une autre en a gagné une. Les entreprises gagnantes vont pouvoir embaucher les chômeurs des autres :-)

    • L’article n’est pas parfait, mais il n’en demeure pas moins qu’au fond, il y a un problème. En effet, Google peut faire ou défaire le succès d’une TPE ou PME sans que celle-ci ne puisse l’anticiper en aucune façon.

      Lorsqu’une entreprise perd 30 % de son chiffre du jour au lendemain, quelques autres gagnent l’équivalent, a priori. Au total, le résultat semble nul. Cependant, pas sûr que les chômeurs des perdants soient immédiatement repris chez les gagnants.

      Ce qui commence à agacer de plus en plus de gens qui gagnent leur vie via les visites issues des moteurs de recherche — à 90 % de Google en France —, ce n’est pas tant que Google change les règles, mais que ces règles soient si opâques, si imprévisibles, si drastiques et enfin si rapides à être appliquées. Il paraît difficile de s’adapter à chacun de ces changements, et la survie des entreprises tient alors davantage au hasard — lié au bon vouloir de Google — qu’à une approche rationnelle.

      Certes, Google indique désormais davantage que dans le passé les informations nécessaires à la création d’un « bon » site. Cependant, ces indications n’évoluent que peu, alors que les positions évoluent rapidement. Ce qui semblait être une pratique recommandée, car récompensée, un jour, devient une pratique prohibée le lendemain, ou du moins pénalisée.

      Enfin, on notera que depuis 2009 environ, Google a changé sa politique de lutte contre le spam web. Jusqu’alors, l’entreprise tentait de ne surtout pas nuire aux sites légitimes, quitte à laisser passer un peu de spam. Depuis, l’approche est plus pragmatique, Google acceptant un certain niveau de dommages colatéraux.

      Ainsi se développe le « negative SEO » dont le but est de faire croire qu’un concurrent abuse de techniques prohibées afin de le voir baisser dans les positions, voire banni des résultats de recherche. Certaines de ces techniques déloyales fonctionnent. Un confrère rencontre un problème avec un site de jeux vidéo anglophone tout à fait légitime, respectant toutes les consignes de Google, mais dont le concurrent utilise des techniques de concurrence déloyale les plus grossières, et s’en trouve récompensé, au détriment de sa victime dont il cannibalise les visites issues de Google, leur principal fournisseur de visites à tous les deux...

    • @martin : d’où vient le chiffre de 30 % ? Je ne dis pas qu’il est impossible mais j’aimerai bien des sources (complètement absente de l’article catastrophiste de Numérama).

      Mais le fond du problème est cette idée « je me suis adapté à l’algorithme de Google et maintenant il a changé et c’est injuste ». Si une entreprise, au lieu d’améliorer son produit, a passé son temps et son argent à payer des rebouteux #SEO pour « adapter » son site Web pour être bien placé dans Google, alors, en tant que client, je suis ravi que cette entreprise dégringole dans les résultats. Je ne vais pas la pleurer. (Il faut toujours se rappeler que les résultats de Google impactent deux catégories : les sites Web et leurs utilisateurs. L’article de Numérama ne parlait que des premiers.)

      Soit on passe son temps à améliorer le produit (cas de vente de trucs physiques) et le site Web (cas de ventes de trucs virtuels), soit on fait du SEO. Faut choisir, coco. Si on a choisi de modifier son site Web juste pour grignoter quelques places grâce à la version actuelle de l’algorithm de Google, on mérite ces fluctuations de classement.

      Quant au « negative SEO », je veux bien des détails précis et sourcés. D’abord, pour l’appliquer à mes concurrents, ensuite parce que je ne comprends pas bien comment on pourrait « faire croire qu’un concurrent abuse de techniques prohibées ». Je suis sceptique en attendant ces détails.

    • Je viens de lire une bonne part des témoignages cités par l’article de Numérama, par exemple en http://www.google.com/support/forum/p/Webmasters/thread?tid=76830633df82fd8e&hl=en

      Il y a deux problèmes essentiels avec ces témoignages : seuls les mécontents s’expriment, et tous oublient que l’algorithme du moteur de recherche n’est qu’un algorithme, qu’il n’est pas intelligent.

      Sur le premier point, il faut rappelle une évidence : pour chaque site qui baisse d’un cran dans le classement, il y en a un qui monte. Ces heureux ne sont pas cités dans la discussion. Y a-t-il un biais systématique qui fait qu’une certaines catégorie de sites baisse et qu’une autre monte ? J’ai lu des rumeurs à ce sujet mais rien trouvé de ferme.

      Sur le deuxième point, le caractère aveugle de l’algorithme, il faudrait vraiment rappeller aux plaignants (« mon site a perdu dix places, pourtant regarder la qualité de mes textes ») que le moteur de recherche n’est qu’un logiciel. Il n’est pas intelligent et certainement pas capable de reconnaître de la qualité quand il en voit. C’est bien pour cela qu’il est inquiétant que tant de gens lui fassent une confiance aveugle. L’urgence n’est pas de réguler Google, de lui demander (ou de le forcer à être plus gentil, l’urgence est d’apprendre à moins dépendre d’un algorithme aveugle pour notre navigation sur l’Internet !

      C’est d’ailleurs l’un des avantages des changements d’algorithme par Google, que le nouvel algorithme soit meilleur ou pire : pédagogiquement, ces changements sont très positifs, car ils contribuent à faire prendre conscience au lecteur qu’il ne doit pas se laisser guider par un logiciel, celui-ci ayant une bonne dose d’arbitraire.

      Enfin, ce sont des points de détail, mais pas mal d’intervenants sur le forum se font des sérieuses illusions sur leur importance et leur qualité. Un type se plaint de ne plus être aussi bien placé sur les requêtes « RC airplanes » alors que c’est un sujet sur lequel il y a des zillions de sites intéressants et donc une concurrence très forte. Un autre se plaint de ce que son site ait réculé dans le classement alors qu’un examen du contenu ne montre vraiment pas grand’chose d’intéressant.

  • SEO for Non-dicks - Matt Legend Gemmell
    http://mattgemmell.com/2011/09/20/seo-for-non-dicks

    The key thing to understand is that the rules of #SEO aren’t magic or arbitrary. They’re based on the goals of a search engine, which is to find relevant results. Relevance implies genuineness, and genuineness implies trust. So, shockingly, you should try to make your site’s content trustworthy, genuine and relevant. All of the rules have come about due to their utility in detecting those three positive metrics. Good SEO is a by-product of not being a dick on the internet.

    Oui bin voilà, suite de notre discussion de l’autre jour IRL @delphine : je ne suis pas embêté par les gens qui font des contenus pertinents. Le vaudou pour moi c’est le reste (la google dance par exemple).

  • Plan de bataille de la stratégie SEO de Yahoo ! en tant que portail de contenus :

    Get These Three Things Right In Enterprise SEO
    http://searchengineland.com/get-these-three-things-right-in-enterprise-seo-87145
    At many large companies, SEO is an uphill battle, so any victory should be fully celebrated. I asked what happened that enabled him to be so wildly successful in this case, and he told me there were three things that caused an SEO tipping point:
    1. Executive Support
    2. SEO involvement early in the project
    3. SEO ownership of standards

    Sur la même thématique, voici ce que ferait Matt Cutts, le monsieur anti-spam de Google, s’il devait devenir responsable en référencement naturel d’une grosse entreprise :

    If you were an in-house SEO of an advanced level, within a large corporation, what 3 things would you make sure you had included in your 2011 strategy?
    http://www.youtube.com/watch?v=vLp9Qf99DCI

    Pour résumer, les conseils de Matt sont :
    1. améliorer la vitesse de chargement des pages ;
    2. structure du site optimale (incluant utilisation d’un CMS pensé pour et d’une sensibilisation des utilisateurs à l’importance du référencement) ;
    3. promotion via réseaux sociaux.

    Voici des pistes censées, pertinentes, et complémentaires pour assurer une bonne visibilité d’un site web sur les moteurs de recherche.

    Enfin, notons qu’aucun des deux n’a inclus dans la stratégie la création d’un réseau de liens visant à promouvoir ce contenu. Ces liens devant en effet découler naturellement des autres actions.

    #seo #référencement_naturel #avis_d_experts #yahoo ! #google #markus_renstrom #matt_cutts

  • Tu utilises IE6 ? T’es con. Ou alors tu as installé la Google Chrome Frame. Ou encore tu snobes tout le monde avec Camino ou Opera :

    Is Internet Explorer For The Dumb? A New Study Suggests Exactly That.
    http://www.aptiquant.com/news/is-internet-explorer-for-the-dumb-a-new-study-suggests-exactly-that
    Internet Explorer users scored lower than average on the IQ tests. Chrome, Firefox and Safari users had just a teeny bit higher than average IQ scores. And users of Camino, Opera and IE with Chrome Frame had exceptionally higher IQ levels.

    Si vous ne voulez pas ouvrir le PDF disponible depuis la page précédente, Le Figaro publie l’image du fameux graphique qui tue :

    Le QI varie selon le navigateur Internet
    http://www.lefigaro.fr/flash-actu/2011/07/29/97001-20110729FILWWW00528-le-qi-varie-selon-le-navigateur-internet.php
    Le quotient intellectuel moyen des internautes n’est pas le même selon qu’ils utilisent Internet Explorer, Chrome, Firefox, Safari ou Opera, selon une étude [AptiQuant]

    J’ignore quel navigateur utilise le journaliste du Figaro, il semble avoir (volontairement) inversé cause et effet dans le titre. Je doute en effet que le changement de navigateur rende les gens plus ou moins malins. En revanche, s’ils sont malins, c’est peut-être qu’ils migrent d’eux mêmes, ou tout du moins ils ont cette possibilité, vers autre chose qu’IE 6.

    #étude #science #psychologie #intelligence #qi #navigateur #internet

    • Dans mon administration préférée, nous pianotons toujours avec XP et IE6, sauf quelques gugusses qui préfèrent portable firefox. Mais on a pas le droit. De là à supposer que mon administration préférée comporte bcp de QI bas (sauf quelques gugusses :-) )...

    • Cet autre article fait remarquer que la méthodologie de l’étude n’est pas particulièrement scientifique, vu notamment que l’échantillon n’est pas représentatif de la population, mais est réalisé à l’initiative des utilisateurs :

      Are Internet Explorer users dumb?
      http://edition.cnn.com/2011/TECH/web/07/29/internet.explorer.dumb/index.html
      Those numbers, it should be noted, probably aren’t very scientific. The field of test-takers was self-selecting — people who chose, on their own, to take an IQ test instead of a scientifically selected study group. They found the test through Web searches or ads the company placed online.

      #critique

    • Au fait ! L’étude était totalement bidon et servait juste de buzz pour un commerçant en ligne :

      AptiQuant
      http://www.aptiquant.com
      AptiQuant was set up in late July 2011 by comparison shopping website AtCheap.com, in order to launch a fake “study” called “Intelligent Quotient and Browser Usage.” The study claimed that people using Internet Explorer have a below than average IQ score. The study took the IT world by storm. The main purpose behind this hoax was to create awareness about the incompatibilities of IE6, and not to insult or hurt anyone.

      Beaucoup de gens se sont fait avoir :

      Internet Explorer story was bogus
      http://www.bbc.co.uk/news/technology-14389430
      A story which suggested that users of Internet Explorer have a lower IQ than people who chose other browsers appears to have been an elaborate hoax.

      D’après MajesticSEO :

      http://www.majesticseo.com/reports/site-explorer?q=http%3A%2F%2Fwww.aptiquant.com%2F&oq=http%3A%2F%2Fwww.a

      le site a acquis 816 liens issus de 323 domaines. Joli score en quinze jours (il faut habituellement jusqu’à 6 semaines à MajesticSEO pour identifier l’essentiel des liens). A priori, le coût d’acquisition du lien est donc tout à fait intéressant, j’imagine, vu que ceux-ci apparaissent sur des sites à forte notoriété (d’innombrables sites de presse).

      #fake #buzz #seo #référencement_naturel

  • Exprimer son mécontentement des services d’un prestataire sur Internet serait-il en voie de devenir interdit, ou bien est-ce limité aux protagonistes jouissant d’une certaine notoriété ?

    Zlio condamné à une amende de 10.000 euros pour « tweets » dénigrants contre Referencement.com
    http://www.latribune.fr/technos-medias/internet/20110728trib000639431/une-amende-de-10.000-euros-pour-tweets-denigrants.html
    C’est une première en France : la société Zlio vient d’être condamnée par la justice pour « actes de dénigrements » tenus à l’encontre de la société Referencement.com... sur Twitter.

    #justice #dénigrement #internet #référencement #seo

  • On dirait que certains ont trouvé une parade aux contenus de qualité variable sur leurs domaines : les sous-domaines !

    Les sous-domaines, une solution à Google Panda ?
    http://www.webrankinfo.com/dossiers/techniques/panda-sous-domaines
    C’est sans doute la première fois qu’on entend parler d’un gros site disant avoir trouvé une solution pour récupérer (une partie de) son trafic après avoir été impacté par Panda. En résumé, ce portail d’articles isole ses contenus dans des sous-domaines... Est-ce réellement la solution ?

    #seo #référencement #google #panda #qualité #fermes_de_contenu

    • @stephane, je n’entends pas te faire changer d’avis sur les conseils en référencement. Ton incrédulité dans ce domaine n’est pas nouvelle. Néanmoins, je te rejoins en cela que le coup des sous-domaines reste très superficiel et pas du tout pérenne.

      Ce qu’il faut, c’est bel et bien privilégier le contenu de qualité, ce que la plupart des responsables éditoriaux de sites refusent de comprendre, parce que ça coûte plus cher que de déplacer des dossiers vers des sous-domaines, ou encore importer un flux RSS et de changer le titre de la page.

      D’ailleurs, dès que je recommande à mes clients de rédiger du contenu sur leur site, parce qu’ils sont 100 (fréquent) à 100.000 (déjà vu) concurrents qui utilisent strictement le même flux XML fourni par le fournisseur, en leur expliquant qu’il faut bien une heure par fiche produit pour donner une description et des conseils pertinents (les gens ont besoin d’être rassurés, pas de lire une fiche produit réduite à « longue et puissante » pour — véridique, j’ai eu ce cas — décrire une balle de golf), ou encore qu’il faut fournir des guides de conseils d’achat à disposition des clients (quoi ? les dossiers fnac ? jamais entendu parler ?), il n’y a plus personne. :-D

      Les clients veulent une potion magique. Les sous-domaines en sont une composante. :-D

  • Intéressant, je viens de recevoir une alerte « Google Alertes » m’invitant à découvrir mon « seen » publié voici une semaine :

    http://seenthis.net/messages/26887
    Y a-t-il une API pour accéder à SeenThis depuis un bot ?

    Mon alerte est faite sur mon nom. Mais j’en reçois tout aussi peu en rapport avec d’autres réseaux sociaux, dont Twitter, même si ce dernier jouit d’une meilleure réactivité.

    Bref, à défaut de pouvoir compter sur le service Google Alertes, qui est une vraie passoire, cela confirme au moins que SeenThis est référencé par (au moins un bot de) Google.

    #seenthis #seo #personal_branding #eréputation #google_alertes

  • La presse belge poursuit Google depuis 2006 pour contrefaçon. Le résultat du jour (15 juillet 2011) ? Le retrait de ses titres de Google Actualité et des résultats de recherche généralistes.

    Boycott : Google répond aux sites d’info belges : interview
    http://www.rtl.be/loisirs/hightech/actuweb/10135/boycott-google-repond-aux-sites-d-info-belges-interview

    La presse belge semble s’en étonner, mais... en quoi Google Actualités violerait la loi par un délit de contrefaçon, mais les mêmes pages référencées dans la recherche généraliste ne la violerait pas ? La décision de Google paraît censée et logique.

    Si l’on peut en effet se demander s’il n’y a pas un problème juridique avec les moteurs de recherche qui indexent, voire recopient partiellement ou intégralement les contenus tiers sur leurs serveurs, l’usage depuis 15 ans laisse à croire que c’est tout à fait admis et toléré, d’autant qu’il existe de nombreux standards, faciles à mettre en place et largement documentés, permettant de contrôler la diffusion de ces informations. Je pense notamment aux standards « robots.txt », balises HTML ou entêtes HTTP.

    Ce que je comprends de ce conflit, c’est qu’en gros, Cyberpresse veut qu’on parle d’elle, mais qu’à chaque fois qu’on parle d’elle et qu’on incite les gens à la lire, pouf, faire payer celui qui en parle. « Je veux bien que tu m’amènes des visiteurs, sous condition que tu me payes en plus. » Ben tiens.

    Bon, de toutes façons, faire des affaires avec du gratuit a ses limites. À un moment, il faut que quelqu’un paye. Et on en arrive à des situations grotesques.

    #presse #google #belgique #justice #seo

    • Un article complémentaire qui détaille la décision de justice :

      Google déréférence la presse belge de son moteur de recherche
      http://www.pcinpact.com/actu/news/64660-google-dereference-presse-belge-moteur-recherche.htm
      La Cour estime également qu’il ne peut être question d’application d’un régime « d’opt out » en cette matière, seule une autorisation préalable de reproduction n’est valable juridiquement.

      [...]

      La Cour établit clairement que les éditeurs et les auteurs ont bel et bien subi un préjudice en raison des contrefaçons de Google qui lui ont permis de se substituer à l’activité des éditeurs. La technologie utilisée par Google ne peut en aucun cas justifier qu’elle viendrait supplanter le droit ou que celui-ci devrait par principe s’y conformer.

      J’ai du mal à voir une quelconque contrefaçon de la part de Google. Google Actualités est une revue de presse au même titre qu’une autre, et ce type de communications échappe habituellement au droit d’auteur.

      Ceci dit, je peux comprendre l’argument expliquant que la possibilité d’un « opt-out » ne peut se substituer à une demande préalable de reproduction comme l’exige la loi, dans le cas où cette reproduction n’échappe pas au droit d’auteur.

      En revanche, je me demande bien que « préjudice » a bien pu subir la presse belge en étant référencée sur Google... Non, vraiment, je ne vois pas. J’ai beau me creuser la tête, mais quelque chose m’a échappé dans cette histoire.

  • Un dessin vaut mille mots ?

    Spin Visualizer Spin Visualizer – Petit Nuage
    http://petitnuage.fr/?attachment_id=4299

    C’est en 2007 que j’ai développé mon outil de content spinning :

    Content spinning : génération automatique de texte
    http://unearaigneeauplafond.fr/story-teller-un-generateur-dhistoires-semi-automatique

    Cependant, après de nombreux essais, je me suis aperçu que le principe, se basant sur le parcours aléatoire d’une suite d’expressions, éventuelles imbriquées les unes dans les autres, posait un problème. En effet, pour « garantir » une originalité suffisante d’un « bon spin », il fallait y consacrer plus d’efforts de préparation que l’écriture directe manuelle d’autant de versions, d’autant qu’en l’absence d’outils d’aide à la rédaction de ce type de textes, il est peu aisé de rédiger un spin dépourvu de fautes, qu’il s’agisse de majuscules omises, de virgules manquantes, de raccords étonnants, d’erreurs d’accords et autres problèmes réclamant de toutes façons une relecture manuelle, suivie de correctifs, augmentant de ce fait de manière non négligeable le coût de production via cette technique.

    J’avais alors essayé des extensions, comme des macros, mais l’essai pratique avec un autre utilisateur m’a vite découragé : tout ce qui n’était pas évident était ignoré. Le but effectivement recherché par les rédacteurs de spins n’est pas d’améliorer la qualité, mais d’augmenter la quantité, le tout en produisant un contenu suffisant pour déjouer les filtres anti-contenu dupliqué des moteurs de recherche, et surtout pas plus. Il va de soi que l’économie exigée par les utilisateurs de cette technique exclue tout suivi lié au devenir des textes ainsi mis en ligne, et exclue toute étude d’impact.

    En effet, ce que retient la plupart des spammeurs, c’est qu’ils peuvent produire des millions de textes à peu de frais, tous différents, et ce même si en réalité, en en produisant autant, seul un mot diffère dans tout le texte, et que le paradoxe des anniversaires fait que même avec 365 versions d’une même expression, il suffit d’à peine 23 versions pour dépasser 50 % de chances de voir la même expression ressortir deux fois, ou encore d’à peine 57 versions pour dépasser 99 % de chances de duplication avérée. Or, un « bon spin » ne propose jamais autant de variantes d’une même expression, alors que chaque nouvelle expression augmente les chances de repérage de ses consœurs issues d’un même corps de texte principal.

    Beaucoup considèrent qu’il est impossible de repérer du « spin de qualité ». À croire qu’ils n’ont jamais utilisé Google Actualités, un service capable de rassembler, automatiquement, des textes portant sur le même sujet, même si les contenus sont issus de sites indépendants, rédigés par des journalistes différents, et expriment des opinions parfois opposées. Mais il existe des outils autrement plus simples pour repérer le spin, comme repérer les liens promus (directs et indirects), dont leurs textes d’ancres, ou encore tout bêtement de compter le nombre de paragraphes des textes aux champs lexicaux similaires, le nombre de phrases par paragraphe, le nombre de mots par phrase, et ainsi de suite. Ce ne sont donc pas les moyens — évidents — qui manquent pour repérer — pour éventuellement pénaliser — du contenu dupliqué dans le fond, de par une forme très similaire.

    Bref, personnellement, dans le cadre du référencement naturel, je me sers avant tout du spinning pour ajouter de la variété aux textes que je retouche à la main, notamment dans le cadre de la diffusion de communiqués de presse :

    Chaîne de production des communiqués de presse
    http://petitnuage.fr/referencement-web/seo-methodologie-communique-presse-4179

    En effet, paraphraser un même texte original en de nombreuses versions à la main engendre des duplicatas involontaires du fait de l’absence de variété dans l’inspiration de l’acte de réécriture. Le content spinning est donc intéressant pour ajouter la variété nécessaire aux textes sources avant l’acte de réécriture, qui va au-delà du remplacement de mots ou de phrases, allant habituellement à la permutation des paragraphes — avec les conséquences de sens qui s’y rapportent —, voire au changement de structure du texte, de l’argumentaire, des exemples.

    Enfin, le content spinning est une forme d’écriture automatique parmi d’autres. Il existe de plus en plus de filières universitaires partout dans le monde qui cherchent à faire acquérir une double formation de journaliste et d’informaticien, notamment dans le cadre de l’écriture, à savoir dans la forme des informations présentées.

    Il existe toute une littérature sur les commentaires sportifs, ciblant les événements locaux, tel le rapport d’un match entre deux écoles de quartier rapporté dans l’édition locale d’un village, qui ne pourraient être rédigés à la main du fait de la très faible audience ciblée.

    À y regarder de plus près, les sites de la presse nationale préparent dans des temps records des articles sur des événements a priori imprévisibles, et pourtant alimentés en continu d’informations en temps-réel, puisés habituellement dans les dépêches d’agences, automatiquement, parfois accompagnés de commentaires de journalistes de la rédaction, voire même de commentaires de lecteurs préalablement filtrés, automatiquement ou non.

    Ceci pour dire que le content spinning s’inscrit dans cette voie, sans toutefois apparaître comme une solution ultime. Pour autant, le développement d’outils d’aide à la rédaction, ou encore de visualisation, présente un intérêt économique pertinent.

    Alors comme ça, tu t’intéresses au content spinning ?
    https://labs.petitnuage.fr/storyteller/cache/201107/spin-81e55b2a5276ce5f0ffe85b02dcd4050971a2526.svg

    #outil #développement #content_spinning #journalisme #presse #rédaction #écriture #automatisation #seo #spam

  • Les #autoblogs sont à la mode. L’idée est de dupliquer le contenu des sites Web, pour prévenir une éventuelle censure. La technique la plus courante est de reprendre le flux de syndication.

    Un logiciel qui le fait, VroumVroumBlog http://sebsauvage.net/streisand.me

    Un article de synthèse en français http://sebsauvage.net/rhaa/index.php?2011/07/12/20/38/27-oyez-oyez-

    Des instructions pour #Wordpress http://www.fansub-streaming.eu/blog/creer-un-wordpress-auto-alimente-par-flux-rss.html

    Bref, faut-il mettre #SeenThis en autoblog ?

  • Google, le Turc Mécanique et la tour de Babel – {Content Spinning}
    http://www.webcontentspinning.com/google-le-turc-mecanique-et-la-tour-de-babel

    Pour être réellement performant, atteindre les objectifs de pertinence nécessaires à la satisfaction des utilisateurs, autrement dit l’élimination du spam et de toute forme de contenu non destiné à la lecture humaine, Google se confronte, en terme de linguistique computationnelle, à une limite dans la théorie de la complexité des algorithmes : AI-complet.
    #seo #google #blackhat #spam

  • Le spam web souffre d’encore plus d’amateurisme que le spam mail.

    À l’instant, je viens de voir une tentative (échouée) de spam de commentaires sur l’un de mes blogs personnels assez grotesque. Mon blog ne publie que des commentaires en « nofollow », donc ne transmettant aucune visibilité aux liens figurant dans les commentaires. Certains spammeurs sont pourtant convaincus du contraire. Soit.

    Ce spammeur publie donc un lien... cassé. Oui, l’URL est cassée par un saut à la ligne intempestif, du fait du spammeur seul, rendant l’interprétation du lien impossible. « Heureusement » pour lui (est-ce voulu ?), le site destination rattrape son erreur via une « redirection 301 » (suivie par les moteurs de recherche, mais avec « perte de jus »). La cible du lien ? Un autre commentaire de spam, lui aussi « nofollow ». La cible du lien de ce nouveau commentaire ? Une page facebook individuelle. Je soupçonne soit une tentative manuelle et maladroite de diffamation, avec usurpation d’identité, la même IP soumettant des commentaires aux contenus douteux et insistant avec lourdeur sur des informations personnelles (nom, prénom, âge, etc.)

    On n’en parle pas assez, mais le spam web coûte une fortune aux webmasters. Il existe bien des solutions anti-spam (et Akismet en fait partie), mais elles engendrent tout de même des coûts, que ce soit en abonnement (Akismet est payant, sauf utilisation personnelle sur une plateforme dépourvue de publicités et tout autre aspect commercial ou promotionnel), ou en repêchage de faux positifs et faux négatifs, nécessairement manuel, donc très coûteux en temps).

    #eréputation-personal_branding-diffamation #spam-web-akismet #spam-web-coût #seo-301 #seo-nofollow

    • ce qui est drôle (et révélateur) c’est que leur exemple est absolument insensé : ils partent d’une news financière et aboutissent à l’illustrer par une photo de Times Square ; tout ça parce que la news est signée « New York »

    • Bien vu, @Fil !

      Cela montre aussi les limites des technologies qui se basent sur des entrées humaines de qualité indéterminée. Les étiquettes de Flickr se montrent en effet très peu fiables. Au mieux, elles donnent une vague idée. Cet exemple montre que l’on ne peut se baser exclusivement sur une telle extension pour une classification correcte.

      Néanmoins, la suggestion faite, bien que peu pertinente, n’est pas dénuée de sens. En outre, l’extension suggère non pas une image, mais une panoplie d’images d’illustration. Enfin, il s’agit bel et bien de trouver des images d’illustration, et non des images associées directement au contenu. Il en résultera nécessairement des généralités, en particulier lorsque le contenu analysé correspond davantage à un concept (investissement financier) qu’à un objet aisé à représenter sous la forme d’une photographie.

      Cela dit, oui, ils auraient pu parler d’écureuils dans leur exemple. Mais il aurait peut-être été moins parlant pour les prospects, les groupes de presse, semble-t-il.

      #pertinence #sémantique #opencalais #automatisation #flickr #photographie #taxonomie #tagaroo

  • Bienvenue dans l’ère post-démagogie « boum box
    http://boumbox.wordpress.com/2011/04/29/bienvenue-dans-lere-post-demagogie

    Fin 2009, Google a en effet généralisé la personnalisation des résultats : désormais, même si vous n’avez pas de compte Google, que vous n’êtes pas loggué, du moment où vous ne faites pas des trucs de parano geek total (ou d’internaute moyen d’il y a cinq ans) comme effacer vos cookies et aller regarder dans les options de Google, vos résultats de recherches seront customisés en fonction de toutes ces choses que Google sait sur vous.

    En fait, cet article est plus ou moins une resucée de la TED conférence d’Eli Pariser : Beware online “filter bubbles”.
    http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html
    (L’article d’Owni reprend même l’exemple frappant de la recherche « Égypte ».)

    http://www.youtube.com/watch?v=B8ofWFx525s

    Il y a également un article intéressant à lire, concernant les « défauts » de Google News, en prenant pour exemple le traitement de la mort de Ben Laden :
    http://searchengineland.com/google-news-osama-death-sample-highlights-news-coverage-woes-76063

    L’article est très imparfait, mais les questions posées sont intéressantes.

    #google #référencement #seo