• Affaire Grégory : la stylométrie permettra-t-elle enfin d’identifier le corbeau ?
    https://theconversation.com/affaire-gregory-la-stylometrie-permettra-t-elle-enfin-didentifier-l

    L’ambition de la société suisse OrphAnalytics, qui espère retrouver le corbeau de l’affaire Grégory avec pour unique preuve cinq courtes lettres, rejoint ces dernières recherches sur les réseaux sociaux, dont les publications ne dépassent parfois pas 140 caractères. Cette ambition doit nous interpeller pour deux raisons. D’une part, avec l’abaissement du matériel écrit nécessaire, nos publications en ligne nous transforment tous en potentiels cas d’étude pour des recherches d’attribution. Les comptes Twitter anonymes relayant des avis de personnes tenues au devoir de réserve, ou ne souhaitant pas mêler vie professionnelle et convictions personnelles sont les premiers menacés, mais nous sommes tous concernés.

    Le raccourcissement des textes analysés va cependant de pair avec une diminution de la fiabilité de la stylométrie. Une récente étude avec des textes du XIXe siècle a ainsi déterminé que 5 000 mots était un prérequis pour garantir la solidité des résultats. Mais si le nombre de mots à disposition n’est pas suffisant, la machine continue quand même de renvoyer un résultat, qu’il est tentant d’utiliser. À partir de quel taux de confiance le résultat d’une analyse stylométrique devient-il fiable ? Et, dans le cas d’un procès ou de la surveillance de masse, fiable est-il réellement suffisant ?

    (...) quid d’un gouvernement oppressif qui chercherait à identifier des opposants politiques pensant s’exprimer anonymement sur la toile ?

    #stylométrie #anonymat #pseudonimat

  • Scientists find secret to writing a best-selling novel
    http://www.telegraph.co.uk/technology/news/10560533/Scientists-find-secret-to-writing-a-best-selling-novel.html

    Scientists have developed an algorithm which can analyse a book and predict with 84 per cent accuracy whether or not it will be a commercial success.

    A technique called statistical stylometry, which mathematically examines the use of words and grammar, was found to be “surprisingly effective” in determining how popular a book would be.

    [The group of computer scientists from Stony Brook University in New York] found several trends that were often found in successful books, including heavy use of conjunctions such as “and” and “but” and large numbers of nouns and adjectives.

    Less successful work tended to include more verbs and adverbs and relied on words that explicitly describe actions and emotions such as “wanted”, “took” or “promised”, while more successful books favoured verbs that describe thought processes such as “recognised” or “remembered”.

    Pour écrire un livre à succès, il faut donc des noms, des adjectifs, des conjonctions, des adverbes et des verbes.

    #interestingness #stylométrie

    • Une autre approche du succès en littérature, révélée par Claro, peut-être un peu moins scientifique :

      Pour un style accessible et pas obsédé par les mots (ou comment s’exporter)
      http://towardgrace.blogspot.fr/2013/12/pour-un-style-accessible-et-pas-obsede.html

      Prenez le cas de Joel Dicker, tiens. Penguin vient d’acheter pour une somme record les droits de son dernier roman. Dicker n’est pas OPLM (obsédé par les mots), lui non plus, et il fait le maximum pour combiner un SA (style accessible) avec des OS (observations sérieuses), et se fout pas mal des EAG (des expérimentation d’après-guerre). Il n’écrit donc pas des livres PIE (précieux, intellos et élitistes). Tout ça fait réfléchir. Voici donc la magique formule du bonheur que nul n’élude :
      (SA + OS) - (OPLM + EAG + PIE ) = € + $ = BINGO

    • Pour avoir du succès, il faut forcer sur les prépositions et les déterminants et mollir sur les adverbes et les verbes.

      L’effet des prépositions est presque deux fois plus fort que pour les trois autres (qui se valent à peu près). Les autres parties du discours influent peu.

      Par ailleurs,
      • achieving accuracy up to 84% dans l’original http://aclweb.org/anthology/D/D13/D13-1181.pdf devient predict with 84 per cent accuracy … Le maximum est pris dans un choix de 15 méthodes, appliquées à 8 genres.

      Le plus fort taux de bien classés pour la méthode basée sur les parties du discours est seulement de 74% la plus faible valeur étant 47%, soit un résultat (un peu) inférieur à un tirage à pile ou face.

      • il n’y a pas d’information sur la répartition des mal classés entre les deux types d’erreur de prévision (prévus succès à tort ou prévus bide à tort.

    • Bien sûr le succès commercial d’un bouquin n’a rien à voir avec la politique commerciale des éditeurs et la structure du système éditorial en général... Jamais d’effets de reproduction circulaire ni d’entre-soi, jamais...

    • @iyhel sans doute, mais il s’agit ici des statistiques basées sur le nombre de téléchargements d’une bibliothèque de 45000 ebooks gratuits…
      Les « succès » étant les 50 ouvrages les plus téléchargés de chaque catégorie. À titre d’exemple, voici la liste des auteurs des 25 ouvrages les plus téléchargés, toutes catégories confondues (par ordre décroissant de téléchargement et sans les doublons)

      Mark Twain, Jane Austen, Charles Dickens, Arthur Conan Doyle, Victor Hugo, Lewis Carroll, Machiavel, Kamasutra, frères Grimm, Elsie Lincoln Benedict and Ralph Paine Benedict, Emily Brontë, Franz Kafka, Charles Dickens, James Joyce, Herman Melville, Oscar Wilde, Walt Whitman, anonyme VIIIe-Xe, Mary Shelley, J. M. Barrie, Dante Alighieri

      Huckleberry Finn , le premier est téléchargé 50000 fois, le suivant, Pride and préjudice , 37000.

      La liste des 1000 premiers téléchargés est disponible ici (mais pas le classement dans les genres littéraires)
      http://www.gutenberg.org/ebooks/search/?sort_order=downloads

    • Arf, j’ai lu en diagonale et je n’ai retenu que la référence aux best-sellers d’Amazon... Il n’est donc pas question que d’ebooks gratuits en tout cas.
      Quant aux œuvres du catalogue d’ebook, à priori quasi que des classiques tombés dans le domaine public, faudrait pas non plus sous estimer la force de préconisation de l’institution scolaire.
      Bref, qu’elle que soit la façon d’aborder le problème, je ne suis pas convaincu qu’on puisse tirer le moindre enseignement stylistique de cette étude.

    • Arf ! Pour être franc, j’arrive tout à fait à la même conclusion…

      • j’avais oublié de dire que l’analyse stylométrique est faite uniquement sur les 1000 premières phrases du texte.

      • je ne vois pas dans la méthode retenue comment il traite l’effet d’ancienneté de l’entrée de l’ouvrage dans le projet. D’une part, un ouvrage entré récemment aura peu de téléchargements et, d’autre part, j’imagine que les premiers ouvrages numérisés n’étaient pas des traductions de Shakespeare en finnois (2 rentrés parmi la cinquantaine de cette semaine : Peines d’amour perdues , le 6/01 et Tout est bien qui finit bien , le 4/01).

      • le gros du travail est fait sur le Project Gutenberg , le reste est encore plus anecdotique. Les auteurs appliquent les règles obtenues sur le PG à 10 ouvrages à très gros succès — apparemment choisis au pif… — et sur 4 de « bons auteurs » mais ayant moins de succès — tout aussi choisis au pif… — c’est là qu’intervient le mot magique Amazon qui a juste servi à vérifier qu’ils s’y vendaient mal.

      • sur les 10 bouquins à succès, 7 sont bien classés en utilisant 2 méthodes : la première est celle qui a fourni le fameux 84% et la deuxième sort du chapeau… elle ne fait pas partie des 15 étudiées plus haut.

      • 7 bien classés sur 10
      a surprisingly high performance based on mere 26 features
      sachant que si on classe au hasard 10 bouquins en deux catégories équiprobables, on a de l’ordre de 17% de chances d’en avoir 7 ou plus dans la bonne catégorie (calculs faits avec une loi hypergéométrique, en tirant dans un stock de 1000 livres). Pour que ça commence à être significatif (au seuil habituel de 5%), il faudrait 8 bien classés…

      Bon, il paraît que c’est une première…

  • La présentation sur la #stylométrie était géniale
    https://psal.cs.drexel.edu/index.php/Main_Page
    – mais tout ce qui touche aux questions de linguistique, style, reconnaissance d’un auteur et identification fictionnelle me touche parce que c’est indirectement lié à la pratique avancée de la #littérature. néanmoins aucune naïveté, comme l’a souligné une question dans l’assemblée c’est aussi une problématique politique très sensible

    Il a été question de la « Gay Girl in Damascus », le plus impressionnant hoax de l’année, un Américain qui se faisait passer depuis 5 ans pour une lesbienne américano-syrienne, qui suite aux événements a été interviewé sur CNN et consorts, avant de devoir tomber le masque car il ne pouvait plus gérer l’intérêt qu’il a suscité. http://www.guardian.co.uk/world/2011/jun/13/gay-girl-damascus-tom-macmaster

    Beaucoup de curiosité a été suscité par la présentation. Bel outil en version alpha, #anonymouth ; pour lequel l’Université de Drexel cherche de nouveaux participants et développeurs, particulièrement étudiants en master et doctorat.

    Bien représentatif aussi de la variété de l’origine des chercheurs qui font les présentations : des hackers hacktivistes, des universitaires, des experts SSI - le congrès est ouvert à toutes les compétences et possibilités de débats autour des travaux et compétences de chacun.