• Scientists find secret to writing a best-selling novel
    http://www.telegraph.co.uk/technology/news/10560533/Scientists-find-secret-to-writing-a-best-selling-novel.html

    Scientists have developed an algorithm which can analyse a book and predict with 84 per cent accuracy whether or not it will be a commercial success.

    A technique called statistical stylometry, which mathematically examines the use of words and grammar, was found to be “surprisingly effective” in determining how popular a book would be.

    [The group of computer scientists from Stony Brook University in New York] found several trends that were often found in successful books, including heavy use of conjunctions such as “and” and “but” and large numbers of nouns and adjectives.

    Less successful work tended to include more verbs and adverbs and relied on words that explicitly describe actions and emotions such as “wanted”, “took” or “promised”, while more successful books favoured verbs that describe thought processes such as “recognised” or “remembered”.

    Pour écrire un livre à succès, il faut donc des noms, des adjectifs, des conjonctions, des adverbes et des verbes.

    #interestingness #stylométrie

    • Une autre approche du succès en littérature, révélée par Claro, peut-être un peu moins scientifique :

      Pour un style accessible et pas obsédé par les mots (ou comment s’exporter)
      http://towardgrace.blogspot.fr/2013/12/pour-un-style-accessible-et-pas-obsede.html

      Prenez le cas de Joel Dicker, tiens. Penguin vient d’acheter pour une somme record les droits de son dernier roman. Dicker n’est pas OPLM (obsédé par les mots), lui non plus, et il fait le maximum pour combiner un SA (style accessible) avec des OS (observations sérieuses), et se fout pas mal des EAG (des expérimentation d’après-guerre). Il n’écrit donc pas des livres PIE (précieux, intellos et élitistes). Tout ça fait réfléchir. Voici donc la magique formule du bonheur que nul n’élude :
      (SA + OS) - (OPLM + EAG + PIE ) = € + $ = BINGO

    • Pour avoir du succès, il faut forcer sur les prépositions et les déterminants et mollir sur les adverbes et les verbes.

      L’effet des prépositions est presque deux fois plus fort que pour les trois autres (qui se valent à peu près). Les autres parties du discours influent peu.

      Par ailleurs,
      • achieving accuracy up to 84% dans l’original http://aclweb.org/anthology/D/D13/D13-1181.pdf devient predict with 84 per cent accuracy … Le maximum est pris dans un choix de 15 méthodes, appliquées à 8 genres.

      Le plus fort taux de bien classés pour la méthode basée sur les parties du discours est seulement de 74% la plus faible valeur étant 47%, soit un résultat (un peu) inférieur à un tirage à pile ou face.

      • il n’y a pas d’information sur la répartition des mal classés entre les deux types d’erreur de prévision (prévus succès à tort ou prévus bide à tort.

    • Bien sûr le succès commercial d’un bouquin n’a rien à voir avec la politique commerciale des éditeurs et la structure du système éditorial en général... Jamais d’effets de reproduction circulaire ni d’entre-soi, jamais...

    • @iyhel sans doute, mais il s’agit ici des statistiques basées sur le nombre de téléchargements d’une bibliothèque de 45000 ebooks gratuits…
      Les « succès » étant les 50 ouvrages les plus téléchargés de chaque catégorie. À titre d’exemple, voici la liste des auteurs des 25 ouvrages les plus téléchargés, toutes catégories confondues (par ordre décroissant de téléchargement et sans les doublons)

      Mark Twain, Jane Austen, Charles Dickens, Arthur Conan Doyle, Victor Hugo, Lewis Carroll, Machiavel, Kamasutra, frères Grimm, Elsie Lincoln Benedict and Ralph Paine Benedict, Emily Brontë, Franz Kafka, Charles Dickens, James Joyce, Herman Melville, Oscar Wilde, Walt Whitman, anonyme VIIIe-Xe, Mary Shelley, J. M. Barrie, Dante Alighieri

      Huckleberry Finn , le premier est téléchargé 50000 fois, le suivant, Pride and préjudice , 37000.

      La liste des 1000 premiers téléchargés est disponible ici (mais pas le classement dans les genres littéraires)
      http://www.gutenberg.org/ebooks/search/?sort_order=downloads

    • Arf, j’ai lu en diagonale et je n’ai retenu que la référence aux best-sellers d’Amazon... Il n’est donc pas question que d’ebooks gratuits en tout cas.
      Quant aux œuvres du catalogue d’ebook, à priori quasi que des classiques tombés dans le domaine public, faudrait pas non plus sous estimer la force de préconisation de l’institution scolaire.
      Bref, qu’elle que soit la façon d’aborder le problème, je ne suis pas convaincu qu’on puisse tirer le moindre enseignement stylistique de cette étude.

    • Arf ! Pour être franc, j’arrive tout à fait à la même conclusion…

      • j’avais oublié de dire que l’analyse stylométrique est faite uniquement sur les 1000 premières phrases du texte.

      • je ne vois pas dans la méthode retenue comment il traite l’effet d’ancienneté de l’entrée de l’ouvrage dans le projet. D’une part, un ouvrage entré récemment aura peu de téléchargements et, d’autre part, j’imagine que les premiers ouvrages numérisés n’étaient pas des traductions de Shakespeare en finnois (2 rentrés parmi la cinquantaine de cette semaine : Peines d’amour perdues , le 6/01 et Tout est bien qui finit bien , le 4/01).

      • le gros du travail est fait sur le Project Gutenberg , le reste est encore plus anecdotique. Les auteurs appliquent les règles obtenues sur le PG à 10 ouvrages à très gros succès — apparemment choisis au pif… — et sur 4 de « bons auteurs » mais ayant moins de succès — tout aussi choisis au pif… — c’est là qu’intervient le mot magique Amazon qui a juste servi à vérifier qu’ils s’y vendaient mal.

      • sur les 10 bouquins à succès, 7 sont bien classés en utilisant 2 méthodes : la première est celle qui a fourni le fameux 84% et la deuxième sort du chapeau… elle ne fait pas partie des 15 étudiées plus haut.

      • 7 bien classés sur 10
      a surprisingly high performance based on mere 26 features
      sachant que si on classe au hasard 10 bouquins en deux catégories équiprobables, on a de l’ordre de 17% de chances d’en avoir 7 ou plus dans la bonne catégorie (calculs faits avec une loi hypergéométrique, en tirant dans un stock de 1000 livres). Pour que ça commence à être significatif (au seuil habituel de 5%), il faudrait 8 bien classés…

      Bon, il paraît que c’est une première…