Arf ! Pour être franc, j’arrive tout à fait à la même conclusion…
• j’avais oublié de dire que l’analyse stylométrique est faite uniquement sur les 1000 premières phrases du texte.
• je ne vois pas dans la méthode retenue comment il traite l’effet d’ancienneté de l’entrée de l’ouvrage dans le projet. D’une part, un ouvrage entré récemment aura peu de téléchargements et, d’autre part, j’imagine que les premiers ouvrages numérisés n’étaient pas des traductions de Shakespeare en finnois (2 rentrés parmi la cinquantaine de cette semaine : Peines d’amour perdues , le 6/01 et Tout est bien qui finit bien , le 4/01).
• le gros du travail est fait sur le Project Gutenberg , le reste est encore plus anecdotique. Les auteurs appliquent les règles obtenues sur le PG à 10 ouvrages à très gros succès — apparemment choisis au pif… — et sur 4 de « bons auteurs » mais ayant moins de succès — tout aussi choisis au pif… — c’est là qu’intervient le mot magique Amazon qui a juste servi à vérifier qu’ils s’y vendaient mal.
• sur les 10 bouquins à succès, 7 sont bien classés en utilisant 2 méthodes : la première est celle qui a fourni le fameux 84% et la deuxième sort du chapeau… elle ne fait pas partie des 15 étudiées plus haut.
• 7 bien classés sur 10
a surprisingly high performance based on mere 26 features
sachant que si on classe au hasard 10 bouquins en deux catégories équiprobables, on a de l’ordre de 17% de chances d’en avoir 7 ou plus dans la bonne catégorie (calculs faits avec une loi hypergéométrique, en tirant dans un stock de 1000 livres). Pour que ça commence à être significatif (au seuil habituel de 5%), il faudrait 8 bien classés…
Bon, il paraît que c’est une première…