• La discussion sur Hacker News est une mine d’or. En plus des arguments développés en faveur ou contre l’usage de « vrais noms », on peut y trouver des références documentaires tout à fait intéressantes, comme cette définition du « nom » :

      http://www.hl7.org/v3ballot/html/infrastructure/datatypes_r2/datatypes_r2.html#dt-EN
      Definition: A name for a person, organization, place or thing. A sequence of name parts, such as given name or family name, prefix, suffix, etc.

      qui est particulièrement intéressante, mais... tellement complexe à mettre en œuvre ! Car si pour la plupart d’entre nous, le nom d’un individu est constitué d’un prénom et d’un nom de famille, c’est une définition particulièrement simpliste. Rien que dans les prénoms, on note l’usage de prénoms composés (notamment en France), ainsi que de seconds prénoms, voire de seconds prénoms composés, voire... Le nom ? On peut en avoir un à particule, voire un composé, voire... Les possibilités sont tout simplement impressionnantes, si l’on veut toutes les implémenter tout en normalisant le tout pour un usage aisé dans le cadre d’un traitement informatique.

      Pour en revenir à la discussion de Hackers News, je note que moi-même, j’utilise un nom d’usage qui diffère du nom apparaissant dans mes papiers d’identité, et que cette situation, si elle n’est pas particulièrement courante, reste banale : on a tous des surnoms, des sobriquets, ou encore des pseudonymes que la nouvelle politique psychorigide de Google+ ignore au détriment du respect des personnes.

      Ceci dit, Google favorise de fait les abus. Oh, je ne parle pas des abus propres à Google, mais des abus découlant d’un profil public des gens sous leur « véritable » identité. Rien que le fait d’avoir une identité publique, sans autre élément que son nom, peut poser un problème, comme le notent certains participants à la discussion de Hacker News. C’est d’autant plus gênant lorsqu’il existe un lien direct entre nom et adresse de contact, que cela soit dans le domaine du spam ou le domaine du harcèlement en général, comme relaté dans cet article :

      Le cadeau de Google et Facebook aux spammeurs
      http://korben.info/google-mail-spam.html
      Seulement, il y a un hic : Google vous propose d’afficher un profil public ayant comme URL votre boite Gmail.

      De mon côté, je m’intéresse de plus en plus aux identités virtuelles visant notamment à protéger la vie privée des gens. Du coup, ce type de conversations m’intéresse au plus haut point :

      De l’intérêt d’une identité virtuelle
      http://unearaigneeauplafond.fr/avatar-identite-virtuelle
      Difficile d’être parfaitement anonyme sur Internet. Nous fournissons des informations particulièrement riches sur nous mêmes, que cela soit à titre privé ou à titre professionnel.

      C’est d’autant plus gênant que tous ces fichiers sont inter-croisés, et qu’il est aisé de récupérer ces données personnelles :

      Le nom des visiteurs de mon site directement dans mes statistiques !
      http://www.alban.us/blog/35-connaitre-le-nom-visiteurs-site-internet.php

      Bref, exiger le nom des gens pour un service tel que Google+ est plus qu’une ineptie. C’est un réel danger, voire la fin de notre vie privée, à savoir la fin de notre vie non publique.

  • Un dessin vaut mille mots ?

    Spin Visualizer Spin Visualizer – Petit Nuage
    http://petitnuage.fr/?attachment_id=4299

    C’est en 2007 que j’ai développé mon outil de content spinning :

    Content spinning : génération automatique de texte
    http://unearaigneeauplafond.fr/story-teller-un-generateur-dhistoires-semi-automatique

    Cependant, après de nombreux essais, je me suis aperçu que le principe, se basant sur le parcours aléatoire d’une suite d’expressions, éventuelles imbriquées les unes dans les autres, posait un problème. En effet, pour « garantir » une originalité suffisante d’un « bon spin », il fallait y consacrer plus d’efforts de préparation que l’écriture directe manuelle d’autant de versions, d’autant qu’en l’absence d’outils d’aide à la rédaction de ce type de textes, il est peu aisé de rédiger un spin dépourvu de fautes, qu’il s’agisse de majuscules omises, de virgules manquantes, de raccords étonnants, d’erreurs d’accords et autres problèmes réclamant de toutes façons une relecture manuelle, suivie de correctifs, augmentant de ce fait de manière non négligeable le coût de production via cette technique.

    J’avais alors essayé des extensions, comme des macros, mais l’essai pratique avec un autre utilisateur m’a vite découragé : tout ce qui n’était pas évident était ignoré. Le but effectivement recherché par les rédacteurs de spins n’est pas d’améliorer la qualité, mais d’augmenter la quantité, le tout en produisant un contenu suffisant pour déjouer les filtres anti-contenu dupliqué des moteurs de recherche, et surtout pas plus. Il va de soi que l’économie exigée par les utilisateurs de cette technique exclue tout suivi lié au devenir des textes ainsi mis en ligne, et exclue toute étude d’impact.

    En effet, ce que retient la plupart des spammeurs, c’est qu’ils peuvent produire des millions de textes à peu de frais, tous différents, et ce même si en réalité, en en produisant autant, seul un mot diffère dans tout le texte, et que le paradoxe des anniversaires fait que même avec 365 versions d’une même expression, il suffit d’à peine 23 versions pour dépasser 50 % de chances de voir la même expression ressortir deux fois, ou encore d’à peine 57 versions pour dépasser 99 % de chances de duplication avérée. Or, un « bon spin » ne propose jamais autant de variantes d’une même expression, alors que chaque nouvelle expression augmente les chances de repérage de ses consœurs issues d’un même corps de texte principal.

    Beaucoup considèrent qu’il est impossible de repérer du « spin de qualité ». À croire qu’ils n’ont jamais utilisé Google Actualités, un service capable de rassembler, automatiquement, des textes portant sur le même sujet, même si les contenus sont issus de sites indépendants, rédigés par des journalistes différents, et expriment des opinions parfois opposées. Mais il existe des outils autrement plus simples pour repérer le spin, comme repérer les liens promus (directs et indirects), dont leurs textes d’ancres, ou encore tout bêtement de compter le nombre de paragraphes des textes aux champs lexicaux similaires, le nombre de phrases par paragraphe, le nombre de mots par phrase, et ainsi de suite. Ce ne sont donc pas les moyens — évidents — qui manquent pour repérer — pour éventuellement pénaliser — du contenu dupliqué dans le fond, de par une forme très similaire.

    Bref, personnellement, dans le cadre du référencement naturel, je me sers avant tout du spinning pour ajouter de la variété aux textes que je retouche à la main, notamment dans le cadre de la diffusion de communiqués de presse :

    Chaîne de production des communiqués de presse
    http://petitnuage.fr/referencement-web/seo-methodologie-communique-presse-4179

    En effet, paraphraser un même texte original en de nombreuses versions à la main engendre des duplicatas involontaires du fait de l’absence de variété dans l’inspiration de l’acte de réécriture. Le content spinning est donc intéressant pour ajouter la variété nécessaire aux textes sources avant l’acte de réécriture, qui va au-delà du remplacement de mots ou de phrases, allant habituellement à la permutation des paragraphes — avec les conséquences de sens qui s’y rapportent —, voire au changement de structure du texte, de l’argumentaire, des exemples.

    Enfin, le content spinning est une forme d’écriture automatique parmi d’autres. Il existe de plus en plus de filières universitaires partout dans le monde qui cherchent à faire acquérir une double formation de journaliste et d’informaticien, notamment dans le cadre de l’écriture, à savoir dans la forme des informations présentées.

    Il existe toute une littérature sur les commentaires sportifs, ciblant les événements locaux, tel le rapport d’un match entre deux écoles de quartier rapporté dans l’édition locale d’un village, qui ne pourraient être rédigés à la main du fait de la très faible audience ciblée.

    À y regarder de plus près, les sites de la presse nationale préparent dans des temps records des articles sur des événements a priori imprévisibles, et pourtant alimentés en continu d’informations en temps-réel, puisés habituellement dans les dépêches d’agences, automatiquement, parfois accompagnés de commentaires de journalistes de la rédaction, voire même de commentaires de lecteurs préalablement filtrés, automatiquement ou non.

    Ceci pour dire que le content spinning s’inscrit dans cette voie, sans toutefois apparaître comme une solution ultime. Pour autant, le développement d’outils d’aide à la rédaction, ou encore de visualisation, présente un intérêt économique pertinent.

    Alors comme ça, tu t’intéresses au content spinning ?
    https://labs.petitnuage.fr/storyteller/cache/201107/spin-81e55b2a5276ce5f0ffe85b02dcd4050971a2526.svg

    #outil #développement #content_spinning #journalisme #presse #rédaction #écriture #automatisation #seo #spam

  • En trois actes, comment j’ai hérité, bien malgré moi, des comptes Facebook de quelques anonymes (et plus encore) :

    Pourquoi il ne faut jamais abandonner une adresse email
    http://unearaigneeauplafond.fr/consequences-abandon-email
    L’email est un point central dans la sécurité de notre identité en ligne. En effet, quel que soit le service auquel on souscrit, à part quelques rares exceptions, une adresse email valide est obligatoire. Or, même sans aucun piratage, cette adresse mail peut tomber en d’autres mains. Explications.

    #email #sécurité #réseaux_sociaux

  • Cette histoire d’ejustice.fr est tout de même sacrément gonflée :

    Google assigné devant le tribunal de commerce
    http://www.lefigaro.fr/medias/2011/06/27/04002-20110627ARTFIG00712-google-assigne-devant-le-tribunal-de-commerce.php

    Parce qu’en gros, ce qui leur déplaît, c’est que Google ait déréférencé leur moteur de recherche de ses résultats de recherche. Moi, ce qui m’étonne, c’est que leur moteur de recherche ait été référencé dans les résultats de recherche du moteur en premier lieu.

    Si j’ai bien compris, ils reprochent à Google d’avoir ruiné leur business par le déréférencement de leurs pages de résultats de recherche de Google, ce qui serait de la concurrence déloyale de la part de Google. Or, incluaient-ils eux-mêmes, dans leurs pages de résultats, les résultats de Google, Yahoo ! et Bing ? Pas que je sache, non !

    Si ma mémoire est bonne, à l’époque des faits, leur moteur de recherche n’était autre que Google, dont les sources avaient été personnalisées, le tout placardé de publicités AdSense. Un « MFA » (Made for AdSense) entièrement automatique ou presque, et reposant sur la technologie et la monétisation de... Google.

    http://unearaigneeauplafond.fr/mfa-made-for-adsense
    Un MFA est un acronyme signifiant Made For AdSense, et qualifie un site web destiné exclusivement à véhiculer de la publicité.

    À une époque, BonWeb.com (et sa myriade de sites satellites) se faisait « des couilles en or » (tout est relatif) en exploitant un filon similaire, avec en complément le maquillage des bannières AdSense pour leur donner un aspect trompeur de résultats naturels, avant lui aussi de disparaître des résultats de recherche, ainsi que des centaines de sites plus ou moins réussis.

    Pourtant, depuis de longues années déjà, Google prévient que le moteur n’entend pas inclure dans ses résultats de recherche d’autres moteurs de recherche, pas plus que des résultats récapitulatifs automatiques, telles les pages catégories d’un blog, par exemple.

    Et c’est logique : les utilisateurs de Google, Yahoo !, Bing ou de tout autre moteur de recherche recherchent l’information directement, pas des pages où, peut-être, figurera un lien vers l’information, voire un lien vers une page où ce lien apparaît, voire une page vers une page vers...

    Pour autant, la problématique soulevée par l’action en justice est pertinente : à part en matière de vidéo (et encore...), Google écarte bel et bien les moteurs de recherche verticaux de ses résultats de recherche. Et ainsi, à chaque fois que l’on a un service susceptible d’entrer en concurrence avec Google, on prend le risque, tout à fait réel, de voir le trafic Google disparaître à jamais. Dans un domaine différent de la justice, cela concerne notamment les annuaires de restaurants, hôtels et voyages, remplacés par Google Places / Google Adresses.

    #internet-moteur_recherche-google-google_adresses #internet-moteur_recherche-google-google_places #internet-moteur_recherche-moteur_vertical #internet-moteur_recherche-seo #internet-moteur_recherche-seo #business-concurrence #business-justice #internet-moteur_recherche-yahoo ! #internet-moteur_recherche-bing

  • L’article « Manipulation de masse : un œil sur l’avenir de la communication politique dans les réseaux » sur http://reflets.info/manipulation-de-masse-un-oeil-sur-lavenir-de-la-communication-politique-da fait un rapide état des lieux de l’utilisation actuelle de la manipulation de l’opinion publique par divers gouvernements au travers des réseaux sociaux, et alerte sur l’intérêt des armées pour des logiciels de « persona management » ou identités virtuelles facilitant la désinformation, la propagande et la manipulation de l’information.

    Par intérêt intellectuel, je travaille actuellement sur ce type de solutions. C’est un sujet passionnant, que de créer une identité virtuelle crédible. J’en suis actuellement au commencement, à savoir en train de poser quelques bases, discutées notamment dans l’article « De l’intérêt d’une identité virtuelle » http://unearaigneeauplafond.fr/avatar-identite-virtuelle où j’expose quelques pistes.

    L’une de mes réflexions m’amène notamment à envisager de définir une « identité virtuelle » ou « avatar » jusqu’à deux générations précédentes, afin d’en assurer une certaine cohérence. En effet, lors de la création de comptes mail, notamment, point d’entrée à la quasi-totalité des services web, on demande aux utilisateurs de définir une « Question secrète » visant à redéfinir un mot de passe oublié. L’une des questions fréquemment rencontrées est « Quel est le nom de jeune fille de votre mère ? » Cela suppose donc, pour être cohérent, que l’avatar ait une mère. Et que celle-ci se soit éventuellement mariée. Et donc qu’elle ait porté deux noms de familles, un avant, un second après son mariage. Et le nom d’avant est, habituellement, le nom de son père. Et donc elle a un père. On peut aller loin, aussi loin que pour déterminer qui, de la poule ou de l’œuf, ont été là en premier. Je préfère m’arrêter à trois générations, dont deux en amont de l’avatar créé.

    Pourquoi, cependant, remonter aussi loin pour une bête question secrète à laquelle il vaut mieux répondre autre chose que la vérité, a priori facile à trouver ? Parce que cela répond à bien d’autres questions.

    Les gens ont un second prénom. En Occident, celui-ci est souvent celui de l’un des parents ou des grands-parents. Cela suppose donc qu’ils existent. (Mettons de côté les modes des prénoms, ou encore leurs origines culturelles, qu’il est préférable de ne pas ignorer.)

    Pour être crédible, il faut aussi associer un portrait à l’avatar. Mieux vaut éviter des poursuites liées à l’irrespect du droit d’auteur ou du droit à l’image en aspirant des photographies de tiers, sans parler de la facilité désormais de plus en plus aisée à identifier les individus ainsi représentés avec des logiciels ou services en ligne au travers de la reconnaissance des visages (Facebook et Picasa Web en sont pourvus, ce n’est donc pas de la science fiction ou des technologies de laboratoire, mais une réalité déployée à grande échelle). Il faut donc définir à quoi ressemble l’avatar, dont la couleur de peau, des yeux, mais aussi la taille, le poids et tout autre élément qui le définit physiquement et dont certains sont en tout ou partie lié à l’hérédité. Difficile en effet d’imaginer un avatar aux yeux marrons alors que ses deux parents ont les yeux bleus, par exemple, à moins de vouloir gérer les adoptions et relations extra-conjugales d’emblée de jeu !

    Ce petit jeu de cache-cache à base d’identités virtuelles aux conséquences inter-générationnelles virtuelles pose alors de vrais cas de conscience : qu’en est-il des unions inter-ethniques, notamment ? Ne suis-je pas en train de créer une population virtuelle aux caractéristiques physiques uniformes et flirter ainsi dangereusement avec la loi Godwin ?

    #propagande #avatar #virtuel #virtuel-identité_virtuelle #désinformation #anonymat #virtuel-persona_management #internet-godwin