Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

 
  • #t
  • #te
  • #tex
  • #text
RSS: #text-mining

#text-mining

0 | 25
  • @gata
    gata @gata CC BY-NC-SA 16/05/2020
    13
    @monolecte
    @rastapopoulos
    @die_brucke
    @hassan_nya
    @fil
    @7h36
    @touti
    @sombre
    @reka
    @colporteur
    @val_k
    @supergeante
    @biggrizzly
    13

    Une lecture politique des Furtifs
    par Mélissa et Lunar de La Dérivation
    ►https://dérivation.fr/furtifs

    Be critical of the media you love
    Soyons critiques des œuvres que nous aimons.
    —  Feminist Frequency

    Introduction

    Il y a un an, le 18 avril 2019, sortait le très attendu nouveau roman d’Alain Damasio, Les Furtifs, aux éditions La Volte. Il arrivait quinze ans après son précédent, La horde du contrevent. Le lancement s’est fait avec une énorme promotion, et le roman est un succès commercial, avec au moins 95 000 livres vendus.

    Les Furtifs aborde de nombreux sujets sur lesquels nous travaillons quotidiennement  : les enjeux de la société de contrôle, le hacking, les logiciels libres, l’organisation collective, l’éducation populaire, les communs, les zones autonomes en lutte, la guerre des imaginaires… Autant de thèmes qui font partie de nos vies et dont la perspective de mise en récit nous réjouissait.

    Lecteur⋅ices assidu⋅es d’imaginaire, nous avons plongé dans ce nouvel univers avec une curiosité certaine et… nous ne nous sommes absolument pas retrouvé⋅es dans les projections proposées. De nombreux·ses ami⋅es évoluant sur les mêmes terrains que nous ont lu le livre avec pourtant beaucoup d’enthousiasme. C’est cette contradiction qui nous a motivé⋅es à décortiquer les 696 pages du roman, afin de mieux comprendre ce qui nous a gêné⋅es. Nous espérons que ce travail vous aidera pour vos propres analyses.

    Quel sens fabrique le texte  ?

    Cette analyse se déroule au prisme de nos idées et pratiques politiques  : féminisme matérialiste et queer, anarchisme, communisme libertaire, hacktivisme et défense des libertés numériques. Nous ne jugeons pas ici de la qualité littéraire des Furtifs, mais de ce que produit le texte. Nous ne cherchons pas à répondre à la question «   Qu’a voulu dire l’auteur   ?  » mais bien «   Quel sens fabrique le texte  ?  ». Il n’est pas non plus question de porter un jugement sur les personnes qui ont apprécié cette œuvre. Il nous semble tout à fait possible d’aimer une histoire tout en reconnaissant ses limites et ses défauts.

    Plan

    1. Introduction (à lire avant le reste)
    2. Une histoire patriarcale
    a. Protagonistes et points de vue
    b. Un regard profondément masculin
    c. Une banalisation des agressions sexuelles
    d. Assignation et réassignation aux stéréotype de genres
    (article à paraître)
    3. Dérives masculinistes (article à paraître)
    4. Traitement des minorités (article à paraître)
    5. Quelle révolution  ? (article à paraître)
    6. Des pistes laissées de côté (article à paraître)
    7. Conclusions (article à paraître)
    8. Annexe  : analyse des points de vue
    9. Remerciements, bibliographie et inspirations

    #Alain_Damasio #Les_Furtifs

    gata @gata CC BY-NC-SA
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 17/05/2020
      @fil

      Avec aussi du #text-mining, et de la #dataviz
      @fil
      ▻https://dérivation.fr/furtifs/analyse-des-point-de-vue

      RastaPopoulos @rastapopoulos CC BY-NC
    • @fil
      Fil @fil 17/05/2020

      C’est surtout l’article ’Une histoire patriarcale’ qui claque :-)

      https://dérivation.fr/furtifs/media/dominante-de-genre-par-chapitre.svg

      Fil @fil
    • @davduf
      Davduf @davduf CC BY-NC-SA 18/05/2020

      Ce graphisme n’a aucun sens, dès lors qu’il s’agit d’analyser une œuvre littéraire où les non dits, le style, le souffle, le rythme, etc, comptent autant que le nombre de signes (ou, alors, on est encore en 1950, à l’école primaire). Les auteurs de cet article, publié incomplet, ce qui est assez désagréable, se donnent beaucoup de mal, car leur méthodo n’est pas la bonne.

      Davduf @davduf CC BY-NC-SA
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 18/05/2020

      Je ne vois pas en quoi leur méthodo n’est pas la bonne, la quantité de texte n’est qu’un élément parmi d’autres dans leur argumentaire, et illes démontrent bien que même dans les chapitres où ce sont des femmes qui parlent, c’est pour parler des hommes, et plus particulièrement d’un, du vrai héro central, peu importe le style et le souffle. Tout comme l’argumentation sur le scénario lui-même qui d’après elleux a un ressort typiquement masculiniste (le héro mâle qui après avoir prouvé sa virilité veut récupérer sa femme et sa fille), n’a rien à voir avec la quantité du texte non plus.

      RastaPopoulos @rastapopoulos CC BY-NC
    • @davduf
      Davduf @davduf CC BY-NC-SA 18/05/2020

      Cf. ma réponse au dessus. quantifier du texte littéraire, à base d’aspirateurs sémantiques, je trouve ça bien médiocre. Et pour tout dire, terriblement ringard. De plus, certaines tournures du texte (incomplet) me font penser que la notion de plaisir, centrale à mes yeux dans la lecture, est totalement écartée au profit d’un démontage purement artificiel (c’est leur droit mais c’est aussi le mien de ne pas marcher dans la combine ,-)

      Davduf @davduf CC BY-NC-SA
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 18/05/2020

      Mais tu te fixes sur un truc alors que justement je réponds que ce n’est qu’un élément parmi bien d’autres. :)
      Et que même sans la partie quantification mécanique, illes montrent bien que même au niveau du contenu (donc ce que des humains lisent et comprennent), l’argumentation reste valable puisque même lorsque ce sont les femmes qui parlent c’est presque toujours pour parler du même mec. Et que donc la mise en avant (que fait l’auteur lui-même dans des interviews) de l’écriture « chorale », tombe à l’eau, et n’est pas vraiment opérante : les femmes dans l’ensemble vont continuer à avoir du mal à rentrer dedans et à se sentir comme un personnage parmi d’autre (argument de Damasio pour l’écriture chorale), comme dans tout autre œuvre mainstream (Bechdel test fail).

      Quand au plaisir, ça n’a aucun rapport avec cette analyse, c’est désamorcé dès l’introduction : parmi les auteurices, certain⋅es ont aimé le livre, ont pris du plaisir à le lire, et illes aiment généralement ce que fait Damasio. C’est expliqué très clairement dès le début que ce n’est pas du tout une analyse littéraire du livre et qu’à aucun moment ça n’entre en ligne de compte. C’est une analyse purement et uniquement du contenu politique de l’œuvre, donc peu importe le plaisir ou pas qu’on a eu à le lire, c’est totalement hors-sujet de ce texte.

      Nous ne cherchons pas à répondre à la question «   Qu’a voulu dire l’auteur   ?  » mais bien «   Quel sens fabrique le texte  ?  ». Il n’est pas non plus question de porter un jugement sur les personnes qui ont apprécié cette œuvre. Il nous semble tout à fait possible d’aimer une histoire tout en reconnaissant ses limites et ses défauts.

      […]

      Tentons donc d’analyser quels peuvent être les impacts des Furtifs, ce que produit politiquement le livre. Nous vous laissons cependant l’exercice de pointer les contradictions avec les positions publiques de l’auteur.

      RastaPopoulos @rastapopoulos CC BY-NC
    • @davduf
      Davduf @davduf CC BY-NC-SA 18/05/2020

      Très sincèrement, pour tout te dire, j’ai trouvé l’intro suspecte, tellement hypocrite. Ce qui a probablement orienté à mon tour la lecture du papier :-) Allez, c’est pas grave.

      (reste que si on enlève le plaisir à un roman, l’analyse uniquement sémantique tombe à l’eau, de facto, hé hé)

      Et, que dire, de l’argument de auteur = ce que dit son œuvre = ce qu’il dit en dehors. On en est encore là ? Franchement ? C’est vraiment nier toute notion du geste littérataire...

      Davduf @davduf CC BY-NC-SA
    • @azzo
      Azzo @azzo 18/05/2020

      Oui cette police de la pensée est effrayante. On ne peut éviter de penser à une absence de représentation de la littérature pour ces commissaires, ce n’est qu’une catégorie parmi d’autres dans la production de textes, que l’on peut passer à la moulinette numérique des sripts python.

      Azzo @azzo
    • @fil
      Fil @fil 20/05/2020

      Moi je trouve ça très bien, utile et pertinent. Mais c’est peut-être parce que ça rejoint l’idée que je me suis faite de Damasio à la lecture d’un de ses romans (dont j’ai oublié le titre) — une histoire de mec à moto qui emballe des meufs au nom de la révolution.
      Sur le fond je ne vois pas le problème à traiter les romans comme toute autre production intellectuelle et à les critiquer et en mouliner la matière de la même manière que les autres : scénarios de films (Bechdel), bouquins de management (Boltanski et Chiapello), nécrologies publiées dans un bulletin des anciens élèves (Bourdieu).
      Un roman ne se résume certes pas à un nombre de signes, pas plus qu’un film se résume à ses dialogues ou un tableau à un tas de pigments colorés. Mais le fait de regarder les couleurs n’interdit pas d’autres analyses ni d’autres points de vue.
      Pour ma part je m’interroge sur la violence des réactions que cette étude suscite.

      Fil @fil
    • @antonin1
      Antonin @antonin1 CC BY-NC-SA 20/05/2020
      @fil @rastapopoulos @davduf

      Tout pareil que @fil, jusqu’à la dernière phrase ! Et merci @rastapopoulos pour les précisions.

      L’analyse quanti de corpus en littérature, c’est pas un alpha et oméga, c’est une approche en plus, pas récente, et qui aide à comprendre le texte (et ce qui pour d’autres que @davduf et plein de lecteurs est plutôt du malaise : La Horde du contrevent avec ses perso très genrés, très bigger than life comme dans les romans de droite, le faux côté choral qui met en valeur le chef « naturel », ça m’a pas donné envie de lire plus de Damasio). Quand à l’approche sociologique, la compréhension de l’horizon d’attente du lectorat, des tropes du moment, de l’idéologie des auteurs et de leurs stratégies sociales... c’est aussi très intéressant et je ne vois pas pourquoi ce serait faire offense à un auteur aussi « politique » que Damasio que de l’aborder aussi comme ça.

      Mais le plaisir de l’œuvre compte autant. Je regarde avec plaisir des merdes sexistes qui témoignent de leur époque (heureusement révolue, kof kof !).

      Antonin @antonin1 CC BY-NC-SA
    • @val_k
      ¿’ ValK. @val_k CC BY-NC-SA 20/05/2020
      @davduf

      Quand à la notion de plaisir, elle a été extrêmement vive au départ pour ma part, à chaque extrait de ci ou de ça que je lisais, consciente de la prouesse technique dans les allitérations, puis, et Alain Damasio l’a reconnu lui même quand nous nous sommes rencontré-e-s sur la zad, l’aspect mascu a commencé à me poser probleme.
      ►https://lundi.am/Abecedaire-de-la-ZAD
      (Oui c’est un portrait que j’ai fait de lui à l’occasion, ce serait aussi assez « amusant » de parler de comment il ne figure pas dans la sélection de ses photos de presse, etc. Et oui, le texte est bien « P comme Puissance ».)
      Fait assez « amusant » aussi, bien que tout à fait logique sentimentalement parlant, il s’est rapproché des figures les plus « héroïques » de ses romans qu’il a rencontré / retrouvés sur la zad quand, dans le même temps, nous étions d’autres non-héroïques à nous en éloigner à cause de validisme, de sur-représentation victorieuse, etc.
      Alors excuse moi, @davduf, mais pour qu’il y ait du plaisir, il faut qu’il n’y ait pas de gène. Et cette analyse arrive à point nommé après bien des attentes pour expliquer comment certaines visions dystopiques peinent à nous envoler plus loin, puisqu’il assume un rôle clairement de visionnaire politique dans toutes ses interviews, tant elles sont plombées par des schémas patriarcaux ancestraux. Elle me redonnera peut-être du plaisir et l’envie de lire, qui sait ? ;)

      ¿’ ValK. @val_k CC BY-NC-SA
    • @davduf
      Davduf @davduf CC BY-NC-SA 20/05/2020
      @antonin1

      Mais vous avez tous le droit de brûler qui vous voulez (même si je trouve ça pas gentil en l’espèce) : ce n’est pas la question. La question est celle d’utiliser des scripts python et un texte incomplet mais plein de chapitres aux titres frémissants pour démolir un roman. Je réitère, je trouve ça ringard (@Antonin1 le dit lui-même, ça n’a rien de récent, ce qui est récent, c’est d’afficher sa techonologie en tête de gondole sur le blog en question, et d’exciter les geeks ici, hi hi)

      Je ne soulève que des questions de principe. Plaisir de lire (et d’écrire), capacité à séparer personnages d’un roman/son créateur. C’est absolument tout. Chacun ses priorités.

      Personnellement, le poids politique d’AD m’enchante et me donne bien plus d’espoirs que les scripteries citées plus haut. Voilà, tout, et j’en resterai là les amis.

      Davduf @davduf CC BY-NC-SA
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 21/05/2020

      C’est encore totalement hors sujet, script ou pas script il n’y a aucun rapport : là encore les auteurices de cette anlayse le disent dès le tout début : elles ne jugent aucune personne, donc pas Damasio non plus : elles jugent le texte et lui seul et ce qu’il produit politiquement. Peu importe qui l’a écrit, ce texte contient des idées politiques et il produit des effets politiques sur ceux qui le lisent : mais lesquelles, voilà ce que montre leur texte. Ensuite dans un deuxième temps, illes laissent le soin aux lecteurices de juger de leur côté si ces effets politiques sont raccords avec ce que cherche à faire l’auteur d’après lui-même, ya aucune invention là-dedans.

      Donc c’est vraiment la facilité pour détourner le sujet de dire « séparation entre l’auteur et son œuvre ». C’est bien l’œuvre qui est jugée ici, pas l’auteur.

      Ce qui n’empêche pas de juger l’auteur après-coup, une fois qu’on a vu que l’œuvre aboutissait à des conséquences politiques qui ne nous conviennent pas (mascu, culte héroique, pas chorale du tout, etc). Vu que cet auteur indique parfaitement lui-même être pro-révolutionnaire, et que son œuvre fait partie de ses idées. Et justement son poids politique serait plutôt inquiétant si c’est pour mettre en avant des idées qui ne nous plaisent pas.
      Mais je le répète ça c’est nous de notre côté, après-coup. Là pour ce qui est de l’analyse, c’est vraiment sur l’œuvre et que dit-elle, que produit-elle (= des choses pas super du tout politiquement).

      Sinon annexement, alors même que ces auteurices annoncent ne pas être des pro de l’écriture, pas des universitaires, mais des gens qui ont pris sur elleux des heures de boulot, de décortiquage, de notes, sur leur temps libre, je ne vois pas ce qu’il y a de mal à publier le contenu au fur et à mesure, en plusieurs parties, comme tout bon vieux blog. C’est fort de détournement de critiquer sur ce point de la forme. :)

      RastaPopoulos @rastapopoulos CC BY-NC
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 9/06/2020

      En lien :
      La zone du cador, Révolution viriliste chez un « héros » de la gauche critique, Alain Damasio
      par Leïla Bergougnoux, Nina Faure, Yéléna Perret
      ▻https://seenthis.net/messages/859508

      RastaPopoulos @rastapopoulos CC BY-NC
    • @supergeante
      Supergéante @supergeante 11/06/2020

      Ces échanges me font surtout penser qu’il semble difficile dans les romans de genre francophones de se départir du héros unique, christique, qu’il est encore difficile de parler de la sexualité hétérosexuelle, de la virilité de manière non stéréotypée, que les personnages sont des James Bond ou rien là où mine de rien, des auteurs anglo-saxons arrivent à mettre en scène des personnages avec des ambiguïtés. Je pense à la dernière trilogie de SF que j’ai lue, Rosewater, où si on a aussi un héros rédempteur-sauveur qui se la pète, il a des contrepoints divers, et a le mérite d’être ambigu dans le sens où il n’est pas tout puissant, y compris dans sa sexualité. Et il est entouré de personnages de femmes qui ne sont pas surnuméraires ou à son service.

      Supergéante @supergeante
    Écrire un commentaire
  • @fil
    Fil @fil 5/01/2019
    4
    @recriweb
    @simplicissimus
    @reka
    @kassem
    4

    Éléments de langage : un an de paroles de ministres décryptées - Le Figaro
    ▻https://www.lefigaro.fr/fig-data/interviews-2018

    #visualisation #text-mining

    Fil @fil
    • @cdb_77
      CDB_77 @cdb_77 5/01/2019

      #mots #vocabulaire #terminologie #France #pouvoir #Macron #Mélenchon

      https://i.imgur.com/B9krBmF.png

      CDB_77 @cdb_77
    Écrire un commentaire
  • @hackernoon
    Hacker Noon @hackernoon CC BY-SA 6/08/2018
    1
    @gastlag
    1

    Various Optimisation Techniques and their Impact on Generation of Word Embeddings
    ▻https://hackernoon.com/various-optimisation-techniques-and-their-impact-on-generation-of-word-e

    https://cdn-images-1.medium.com/max/1024/1*RPByKYP_YvHWwqPDoO9fAg.png

    Shameless plugin: We are a machine learning data annotation platform to make it super easy for you to build ML datasets. Just upload data, invite your team and build datasets super quick.Welcome to the third part of the five series tutorials on Machine Learning and its applications. Check out Dataturks, a data annotations tool to make your ML life simpler and smoother.Word embeddings are vectorial representations that are assigned to words, that have similar contextual usages. What is the use of word embeddings you might say? Well, if I am talking about Messi and immediately know that the context is football… How is it that happened? Our brains have associative memories and we associate Messi with football…To achieve the same, that is group similar words, we use embeddings. Embeddings, (...)

    #word2vec #nlp #word-embeddings #text-mining #machine-learning

    Hacker Noon @hackernoon CC BY-SA
    Écrire un commentaire
  • @hackernoon
    Hacker Noon @hackernoon CC BY-SA 29/07/2018

    Reasons to Replace Dictionary Based Text Mining with Machine Learning Techniques
    ▻https://hackernoon.com/reasons-to-replace-dictionary-based-text-mining-with-machine-learning-te

    https://cdn-images-1.medium.com/max/1024/0*qLDMHn6E0KwAZlrX.jpg

    More than 80% of data in most organizations is about how the customers are engaging with the product. Monitoring this relationship using text mining is important when it comes to designing major strategies in any enterprise. The large user-generated content requires the use of automated techniques for text mining and analyzing since crowdsourced mining and analysis are often replete with errors, expensive and does not scale.Machine learning approaches have been gaining momentum with researchers due to its adaptability and accuracy for automated text mining. However, most of the organizations are still relying on the pre-tagged lexicons dictionary approaches to do most of the text mining.In this post, we will highlight the issues with the dictionary-based approaches and how Machine (...)

    #text-mining #machine-learning #mls #ml-techniques #dictionary-text-mining

    • #machine learning
    Hacker Noon @hackernoon CC BY-SA
    Écrire un commentaire
  • @fil
    Fil @fil 22/08/2017
    3
    @gblin
    @mad_meg
    @reka
    3

    She Giggles, He Gallops
    ▻https://pudding.cool/2017/08/screen-direction

    https://pudding.cool/2017/08/screen-direction/assets/img/og-img.png

    There is a high likelihood that women will snuggle, giggle, squeal, and sob, relative to men. Conversely, men are more likely to strap, gallop, shoot, howl, and kill.

    #cinéma #text-mining #genre

    Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 19/08/2017
    8
    @02myseenthis01
    @reka
    @simplicissimus
    @7h36
    @tintin
    @rastapopoulos
    @goom
    @touti
    8

    What is the alt right? A linguistic data analysis of 3 billion Reddit comments shows a disparate group that is quickly uniting — Quartz
    ►https://qz.com/1056319/what-is-the-alt-right-a-linguistic-data-analysis-of-3-billion-reddit-comments-sh

    We’re witnessing the radicalization of young white men through the medium of frog memes. In order to see it, all you need to do is look at the words coming out of their mouths. The alt-right isn’t yet united, but it soon will be.

    #text-mining #trolls #alt-right #Trump #reddit

    Fil @fil
    • @fil
      Fil @fil 19/08/2017

      Evidence of a Toxic Environment for Women in Economics - The New York Times
      ▻https://www.nytimes.com/2017/08/18/upshot/evidence-of-a-toxic-environment-for-women-in-economics.html

      in her paper, “Gender Stereotyping in Academia: Evidence From Economics Job Market Rumors Forum”, Ms. Wu mined more than a million posts from an anonymous online message board frequented by many economists. The site, commonly known as econjobrumors.com (its full name is Economics Job Market Rumors), began as a place for economists to exchange gossip about who is hiring and being hired in the profession. Over time, it evolved into a virtual water cooler frequented by economics faculty members, graduate students and others.

      It now constitutes a useful, if imperfect, archive for studying what economists talk about when they talk among themselves. (…) all posts are anonymous

      (…) The 30 words most uniquely associated with discussions of women make for uncomfortable reading.

      In order, that list is: hotter, lesbian, bb (internet speak for “baby”), sexism, tits, anal, marrying, feminazi, slut, hot, vagina, boobs, pregnant, pregnancy, cute, marry, levy, gorgeous, horny, crush, beautiful, secretary, dump, shopping, date, nonprofit, intentions, sexy, dated and prostitute.

      The parallel list of words associated with discussions about men reveals no similarly singular or hostile theme. It includes words that are relevant to economics, such as adviser, Austrian (a school of thought in economics) mathematician, pricing, textbook and Wharton (the University of Pennsylvania business school that is President Trump’s alma mater).

      #économistes #sexisme

      Fil @fil
    • @02myseenthis01
      oAnth @02myseenthis01 CC BY 19/08/2017

      #linguistique_de_corpus #sociolecte #vocabulaire #langage #réseaux-sociaux
      #anti-progressiste #anti-globalisme #anti-féminisme #suprématisme_blanc

      oAnth @02myseenthis01 CC BY
    • @simplicissimus
      Simplicissimus @simplicissimus 24/08/2017

      repris par Le Monde ►https://seenthis.net/messages/624394

      Simplicissimus @simplicissimus
    Écrire un commentaire
  • @fil
    Fil @fil 3/05/2017
    1
    @severo
    1

    Sentiment analysis on Twitter using word2vec and keras - Ahmed Besbes
    ▻http://ahmedbesbes.com/sentiment-analysis-on-twitter-using-word2vec-and-keras.html

    #machine_learning #text-mining #tutoriel #gensim #word2vec

    Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 16/04/2017
    2
    @reka
    @supergeante
    2

    Gender Roles with Text Mining and N-grams – data science ish
    ▻http://juliasilge.com/blog/Gender-Pronouns

    let’s just look for bigrams that start with “she” and “he”. We will get some adverbs and modifiers and such as the second word in the bigram, but mostly verbs, the main thing we are interested in.

    http://juliasilge.com/figs/2017-04-15-Gender-Pronouns/austen-1.png

    #écrire #femmes #text-mining #Jane_Austen

    Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 26/03/2017

    Dissecting Trump’s Most Rabid Online Following, by Trevor Martin | FiveThirtyEight
    ▻https://fivethirtyeight.com/features/dissecting-trumps-most-rabid-online-following
    ▻https://espnfivethirtyeight.files.wordpress.com/2017/03/thedonaldtrumpsubredditalgebra-16x9.jpg?w=2667

    Comparing subreddits, with Latent Semantic Analysis in R
    ▻http://blog.revolutionanalytics.com/2017/03/comparing-subreddits.html

    http://revolution-computing.typepad.com/.a/6a010534b1db25970b01bb09872202970d-pi#.jpg

    The article looks at various popular and notorious subreddits and finds those that are most similar to the main subreddit devoted to Donald Trump and also to the main other contenders in the 2016 campaign for president, Hillary Clinton and Bernie Sanders.

    #machine_learning #LSA #gensim #R #howto #trolls #reddit #text-mining

    • #Donald Trump
    Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 11/02/2017
    5
    @unagi
    @baroug
    @reka
    @olange
    @gastlag
    5

    Great Literature Is Surprisingly Arithmetic - Scientific American
    ▻https://www.scientificamerican.com/article/great-literature-is-surprisingly-arithmetic

    almost all novels and plays provide one of only six “emotional experiences” from beginning to end—a rags-to-riches exuberance, say, or a rise and fall of hope (below, top). Researchers at the University of Vermont graphed the happiness and sadness of words that occurred across the pages of more than 1,300 fiction works to reveal the emotional arcs and discovered relatively few variations.

    https://www.scientificamerican.com/sciam/cache/file/E3A2D659-B536-428A-92BDC512E395AA69_source.png

    A different study coordinated by Poland’s Institute of Nuclear Physics found that sentence lengths in books frequently form a fractal pattern

    reminds me of Kurt Vonnegut’s shape of stories ▻http://www.openculture.com/2014/02/kurt-vonnegut-masters-thesis-rejected-by-u-chicago.html
    ►https://www.youtube.com/watch?v=oP3c1h8v2ZQ

    #romans #text-mining #récits #écrire #culturomics

    cf ▻https://seenthis.net/messages/507621

    Fil @fil
    • @fil
      Fil @fil 26/04/2017

      bon je crois qu’on vient de franchir une étape : l’analyse de 100 000 récits à partir de leurs résumés sur wikipedia
      ▻http://varianceexplained.org/r/tidytext-plots

      http://varianceexplained.org/figs/2017-04-26-tidytext-plots/sparklines-1.png

      Fil @fil
    • @fil
      Fil @fil 11/06/2017

      Cette étude semble tout casser
      ▻http://www.romanklinger.de/publications/kim2017a.pdf

      Fil @fil
    • @fil
      Fil @fil 25/11/2018
      @freakonometrics

      Une autre étude du même genre :
      ▻https://link.springer.com/article/10.3758/s13423-016-1051-4

      (via @freakonometrics — mais qui ne cite pas Kurt Vonnegut !)

      Fil @fil
    • @fil
      Fil @fil 23/03/2022

      du coup il suffit de dessiner un arc narratif pour générer un roman :
      ▻https://www.youtube.com/watch?v=F_y6drm6af8

      Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 18/01/2017
    1
    @spip
    1

    New Gensim feature : Author-topic modeling. LDA with metadata. | RaRe Technologies
    ▻https://rare-technologies.com/new-gensim-feature-author-topic-modeling-lda-with-metadata

    une nouvelle extension pour #gensim qui pourrait être très utile pour des corpus du genre #SPIP : une fois les topics modélisés à partir du #LDA, on sait les associer non seulement aux articles, mais aussi aux tags (mots-clés, auteurs), ce qui permet de savoir quels sont les auteurs proches, les thématiques similaires, etc.

    https://rare-technologies.com/wp-content/uploads/2017/01/atmodel_plot-855x645.png

    avec aussi du #tSNE pour la #visualisation

    #text-mining #machine_learning

    Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 8/01/2017
    10
    @nicod_
    @fadixu
    @baroug
    @nicolasm
    @7h36
    @booz
    @rastapopoulos
    @apichat
    @arnoferrat
    10

    This is just amazing. Search for anything said on any TV program from the US since 2009, watch that moment, and cite it.

    Jason Scott @textfiles> Let’s be clear; you can search 8 years of news programs by caption. Right now. Immediately. And quote what you find. ▻https://archive.org/details/tv


    ▻https://archive.org/details/tv?q=snowden

    #archive #télévision #sous-titres #recherche #text-mining

    Fil @fil
    • @nicod_
      nicod_ @nicod_ 8/01/2017

      Wow, impressionant.
      Et en plus, it works !

      nicod_ @nicod_
    Écrire un commentaire
  • @fil
    Fil @fil 8/01/2017
    9
    @reka
    @simplicissimus
    @booz
    @kent1
    @sandburg
    @gblin
    @7h36
    @0gust1
    @arnoferrat
    9

    Irene Ros — Text is data ! Analysis and visualization methods (PLOTCON 2016)
    ▻https://www.youtube.com/watch?v=4f6nOjQXSaU

    et le joli projet #textkit qui fait un peut comme #csvkit, mais pour #nltk et le #text-mining
    ▻https://github.com/learntextvis/textkit
     

    Andy Kirk - The Design of Nothing : Null, Zero, Blank (OpenViz Conf)
    ►https://www.youtube.com/watch?v=JqzAuqNPYVM

    #conférences #data_visualization #vide #null #empty #top

    Fil @fil
    • @fil
      Fil @fil 8/01/2017

      PLOTCON 2016 : Peter Wang, Interactive Viz of a Billion Points with Bokeh Datashader - YouTube
      ▻https://www.youtube.com/watch?v=fB3cUrwxMVY

      un outil pour plotter des #millions de données directement sur l’écran, ce qui permet des analyses étonnantes (vers la fin, une démonstration du gerrymandering, très impressionnante)

      #cartographie #big_data

      Fil @fil
    • @fil
      Fil @fil 8/01/2017

      dans cette présentation de Michael Freeman, on parle un peu de #d3.js mais surtout des concepts qu’il s’agit de représenter.
      ▻https://www.youtube.com/watch?v=MmdPSgzfR5Y


      Deux exemples d’infographies frappantes concernant les #États-Unis :

      les morts par arme à feu
      ►http://guns.periscopic.com/?year=2013

      ce projet qui montre la ségrégation raciale à travers l’"explosion" des villes
      ▻http://vallandingham.me/racial_divide

      Fil @fil
    • @fil
      Fil @fil 8/01/2017

      démo d’un système de #base_de_données cartographique hyper-rapide, basé sur #GPU :
      ▻https://www.mapd.com
      ▻https://www.youtube.com/watch?v=9z-nHmEm5JE


      https://www.mapd.com/assets/static/images/products/core_speaks_sql_natively.png

      vers la fin on voit comment Facebook, Twitter etc. ont un accès instantané, à travers divers filtres, à l’ensemble des centaines de millions d’infos qu’ils collectent en temps réel

      Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 10/08/2016
    6
    @gblin
    @ktche
    @simplicissimus
    @reka
    @stephane
    @af_sobocinski
    6

    Text analysis of Trump’s tweets confirms he writes only the (angrier) Android half – Variance Explained
    ▻http://varianceexplained.org/r/trump-tweets

    http://varianceexplained.org/figs/2016-08-09-trump-tweets/android_iphone_ratios_plot-1.svg

    this weekend I saw a hypothesis about Donald Trump’s twitter account that simply begged to be investigated with data:

    Every non-hyperbolic tweet is from iPhone (his staff).
    Every hyperbolic tweet is from Android (from him).

    #text-mining #trump

    • #Android
    • #Donald Trump
    • #android
    Fil @fil
    • @stephane
      Stéphane Bortzmeyer @stephane CC BY-SA 16/09/2016

      #R (because the analysis program is written in R) Very good analysis.

      Stéphane Bortzmeyer @stephane CC BY-SA
    Écrire un commentaire
  • @fil
    Fil @fil 20/07/2016
    3
    @simplicissimus
    @reka
    @severo
    3
    @lewer

    Applying Data Science to the Supreme Court: Topic Modeling Over Time with #NMF (and a #D3.js bonus) — Emily Barry
    ▻http://www.emilyinamillion.me/blog/2016/7/13/visualizing-supreme-court-topics-over-time

    http://static1.squarespace.com/static/57293859b09f959325ac2e33/t/578c6f0be4fcb586153817d5/1468821289558/?format=1000w#.jpg

    LDA was the obvious choice to do first, as is evident when you google “#topic_modeling algorithm.” (...)
    Then I read about Non-negative Matrix Factorization (NMF) and found that in uses similar to mine, its robustness far surpassed LDA. NMF extracts latent features via matrix decomposition, and you can use TFIDF which is a huge plus.

    #text-mining #gensim ping @lewer

    Fil @fil
    Écrire un commentaire
  • @freakonometrics
    freakonometrics @freakonometrics 8/07/2016
    9
    @fil
    @reka
    @simplicissimus
    @7h36
    @hassan_nya
    @baroug
    @gblin
    @supergeante
    @unagi
    9

    Data Mining Reveals the Six Basic Emotional Arcs of Storytelling

    Scientists at the Computational Story Laboratory have analyzed novels to identify the building blocks of all stories.

    ▻https://www.technologyreview.com/s/601848/data-mining-reveals-the-six-basic-emotional-arcs-of-storytelling

    cf ▻http://arxiv.org/pdf/1606.07772v2.pdf

    https://pbs.twimg.com/media/Cm04wlAXYAA4NIf.jpg https://pbs.twimg.com/media/Cm04xd2WYAAsQ01.jpg https://pbs.twimg.com/media/Cm04x-6WgAAQnJ2.jpg

    freakonometrics @freakonometrics
    • @fil
      Fil @fil 8/07/2016

      #écrire #text-mining #culturomics et Kurt Vonnegut !
      ►https://www.youtube.com/watch?v=oP3c1h8v2ZQ

      Fil @fil
    • @simplicissimus
      Simplicissimus @simplicissimus 8/07/2016

      Heu ! y a pas un prof de Poudlard qui s’appelerait Clément Juglar, par hasard ?

      http://supercycleinvestor.com/wp-content/uploads/2015/10/juglar-cycle.jpg

      OK, je ->[_]

      Simplicissimus @simplicissimus
    • @simplicissimus
      Simplicissimus @simplicissimus 8/07/2016

      btw, Vonnegut #excellent, #merci !

      btw2, #péripéties

      Simplicissimus @simplicissimus
    • @fil
      Fil @fil 22/07/2016

      Le sketch de Vonnegut est repris dans son merveilleux “A Man without a Country", mais dans une version plus complète qui finit par démontrer pourquoi Hamlet est nul (comprendre : génial), aussi nul que les récits des peuples primititifs (sujet d’études de KV à la fac) : parce que leur courbe est plate. À aucun moment Shakespeare n’explique si ce qui vient de se produire est bien ou mal. Quoi qu’il arrive (et chaque fois qu’un personnage meurt) : “C’est la vie.”

      http://d.gr-assets.com/books/1330997432l/4979.jpg

      Fil @fil
    • @fil
      Fil @fil 11/02/2017

      repris par Scientific American, avec un ajout sur la fractalitude des textes
      ▻https://seenthis.net/messages/568991

      Fil @fil
    • @fil
      Fil @fil 26/04/2017

      ouhhhhh là ▻https://seenthis.net/messages/568991#message593520

      Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 17/06/2016
    1
    @reka
    1

    NIFTY - News Information Flow Tracking, Yay!
    ▻http://snap.stanford.edu/nifty

    http://snap.stanford.edu/nifty/main.png

    NIFTY is a system that finds mutations of a single piece of information across the daily news cycle. Each day, the system parses through 3.5 million news articles and 2 million mentioned quotes to find the top clusters of quotes through a process called incremental clustering.

    #mémétique #presse #buzz #text-mining

    Fil @fil
    Écrire un commentaire
  • @thibnton
    tbn @thibnton PUBLIC DOMAIN 25/03/2016
    2
    @fil
    @02myseenthis01
    2

    These Are The Phrases That Sanders And Clinton Repeat Most ou “le fond et la forme” | FiveThirtyEight
    ▻https://fivethirtyeight.com/features/these-are-the-phrases-that-sanders-and-clinton-repeat-most

    https://espnfivethirtyeight.files.wordpress.com/2016/03/beckman-demrepeats-1.png

    tbn @thibnton PUBLIC DOMAIN
    • @fil
      Fil @fil 25/03/2016

      #tf-idf #text-mining

      Fil @fil
    • @thibnton
      tbn @thibnton PUBLIC DOMAIN 25/03/2016
      @lewer

      cc @lewer

      tbn @thibnton PUBLIC DOMAIN
    Écrire un commentaire
  • @fil
    Fil @fil 3/03/2016
    5
    @b_b
    @ze_dach
    @severo
    @booz
    @lluc
    5

    Inside #Libpostal - a fast, multilingual, international street address parser trained on OpenStreetMap data · Mapzen
    ▻https://mapzen.com/blog/inside-libpostal

    https://s3.amazonaws.com/assets-staging.mapzen.com/images/inside-libpostal/address-parsing.gif

    ▻https://github.com/openvenues/libpostal

    #nlp #machine_learning #text-mining #geocoding #géolocalisation #cli #outils

    As a motivating example, consider the following two equivalent ways to write a particular Manhattan street address with varying conventions and degrees of verbosity:

    > 30 W 26th St Fl #7
    > 30 West Twenty-sixth Street Floor Number 7

    Obviously ’30 W 26th St Fl #7 != ’30 West Twenty-sixth Street Floor Number 7’ in a string comparison sense, but a human can grok that these two addresses refer to the same physical location.

    Fil @fil
    • @b_b
      b_b @b_b PUBLIC DOMAIN 3/03/2016

      sur le même sujet : ▻http://seenthis.net/messages/399075

      #geocoder #address

      b_b @b_b PUBLIC DOMAIN
    • @severo
      severo @severo PUBLIC DOMAIN 3/03/2016
      @rafemoro

      @rafemoro

      severo @severo PUBLIC DOMAIN
    • @b_b
      b_b @b_b PUBLIC DOMAIN 23/10/2016

      We are happy to announce that access to the Libpostal address parsing and expansion services are now available via the Mapzen #API.

      curl -s 'https://libpostal.mapzen.com/parse?address=475+Sansome+St+San+Francisco+CA&format=keys' | python -mjson.tool
      {
         "city": [
             "san francisco"
         ],
         "house_number": [
             "475"
         ],
         "road": [
             "sansome st"
         ],
         "state": [
             "ca"
         ]
      }

      ▻https://github.com/whosonfirst/go-whosonfirst-libpostal/blob/master/docs/index.md

      ▻https://mapzen.com/blog/libpostal

      b_b @b_b PUBLIC DOMAIN
    Écrire un commentaire
  • @pmo
    Pièces & Main d’Œuvre [RSS] @pmo 15/02/2016

    « Les deux cultures », ou la défaite des humanités
    ▻http://www.piecesetmaindoeuvre.com/spip.php?page=resume&id_article=799

    C’est une révélation que nous avons eue au fond d’une bouquinerie. Un manifeste traduit en 1968, chez Pauvert, l’éditeur le plus frondeur de son temps. Ce manifeste, Les deux cultures et la révolution scientifique, publié neuf ans plus tôt par Charles Percy Snow, aussi mauvais romancier que scientifique, avait connu un vif retentissement dans l’intelligentsia anglo-saxonne, et provoqué d’âpres réponses. Snow s’y plaignait que les bienfaiteurs de l’humanité, les scientifiques, ne soient pas reconnus à la mesure des progrès économiques et sociaux dus à leur génie. Il s’en prenait surtout aux intellectuels, « naturellement luddites », et aux tenants des humanités (qualifiées de « culture traditionnelle »), coupables de snober les sciences, et de ne pas répandre dans le public la nécessaire attitude de (...)

    #Documents
    ▻http://www.piecesetmaindoeuvre.com/IMG/pdf/les_deux_cultures-2.pdf

    Pièces & Main d’Œuvre [RSS] @pmo
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 15/02/2016
      @fil

      Savez-vous pourquoi la Joconde sourit ? Parce qu’elle est heureuse. Pour être exact, elle ressent de la joie à 83 %, du dégoût à 9 %, plus 6 % de peur et 2 % de colère. Moins d’un pour cent d’elle est neutre, et elle n’exprime aucune surprise. Le logiciel du professeur Harro Stokman, de l’université d’Amsterdam, n’a pas pu confirmer la dimension sexuelle ou la part de mépris détectées dans le regard de Mona Lisa par certains humains. Mais c’était en 2005 et la machine a dû progresser, puisqu’entre-temps Stokman a monté la start up Euvision pour vendre ses outils de reconnaissance faciale sur smartphone.

      Connaissez-vous Prospero ? Pas le héros de La Tempête, le logiciel d’analyse de textes conçu par le sociologue Francis Chateaureynaud et l’informaticien Jean-Pierre Charriau. Il permet d’analyser des « dossiers complexes » (séries de textes, discours hétérogènes), de « modéliser la dynamique des controverses et des affaires, les processus d’alertes et les modes de prise en charge institutionnelle des risques collectifs ». Chateaureynaud est ce sociologue de l’acceptabilité à l’EHESS qui glose devant ses étudiants sur la forme des textes de Pièces et main d’œuvre. En fait, il répète ce que lui dit sa petite intelligence artificielle. Voilà qui explique bien des choses.

      PMO sur les #humanités_numériques et le #text-mining (cc @fil :))

      RastaPopoulos @rastapopoulos CC BY-NC
    • @fil
      Fil @fil 15/02/2016

      huhu merci

      Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 11/11/2015
    1
    @booz
    1
    @0gust1

    #Blast.js separates text in order to facilitate typographic manipulation. It has four delimiters built in: character, word, sentence, and element. Alternatively, Blast can match custom regular expressions and phrases.
    Blast’s uses include typographic animation, juxtaposition, styling, search, and analysis.

    ▻http://julian.com/research/blast

    #text-mining ou #typographie #javascript via @0gust1

    Fil @fil
    • @0gust1
      0gust1 @0gust1 CC BY-NC 11/11/2015

      Je suis tombé dessus (par hasard) car je suis en train de recoder un truc similaire (mais sans jQuery), dans un style plus « fonctionnel ».

      ▻https://github.com/0gust1/chop-wrap

      J’ai encore quelques commits à pousser, des truc à « piquer » chez blast.js, plus une jolie démo à faire (dans le style de ▻http://0gust1.github.io/CSS_playground qui était l’expérimentation de départ).

      Si vous trouvez ça rigolo et avez besoin de trucs en plus, demandez :)

      0gust1 @0gust1 CC BY-NC
    Écrire un commentaire
  • @cela
    celine.a @cela 3/11/2015
    4
    @kassem
    @ze_dach
    @fil
    @fredlm
    4

    Gmail : bientôt trois propositions de réponses à vos mails
    ▻http://www.lesechos.fr/tech-medias/hightech/021450867907-google-vous-propose-desormais-de-repondre-en-un-clic-a-un-mail

    Le géant américain a dévoilé Smart Reply, une amélioration de son application Inbox by Gmail, permettant à l’utilisateur de choisir entre trois réponses courtes.
    Et si #Google devenait votre secrétaire ? C’est ce qu’a proposé mardi le géant américain avec #Smart_Reply lors du #Web_Summit, le grand messe des entreprises technologiques organisé à Dublin. Le concept est simple : Google va scanner l’#email et vous proposer trois réponses les plus appropriées, à partir d’une base de 20.000 réponses. Si l’une d’entre elle vous convient, il suffira de la sélectionner pour que l’email soit écrit. Cette amélioration ne concerne cependant pas le service Gmail « classique » mais uniquement sa version « #Inbox by #Gmail » .
    Pour le moment, Smart Reply n’est proposé qu’en langue anglaise. Néanmoins, « il sera proposé prochainement » dans d’autres langues dont le Français, affirme-t-on à Google France.

    #IA

    celine.a @cela
    • @fil
      Fil @fil 6/06/2016

      un papier de recherche qui explique comment marche le système :
      ▻http://www.kdd.org/kdd2016/papers/files/Paper_1069.pdf

      Ils indiquent que déjà 10% des réponses sur mobile utilisent une des réponses proposées par leur système.

      (et comme d’habitude : #smart = #espion)

      #machine_learning #text-mining

      Fil @fil
    • @davduf
      Davduf @davduf CC BY-NC-SA 6/06/2016

      #gafa

      Davduf @davduf CC BY-NC-SA
    • @philippe_de_jonckheere
      Philippe De Jonckheere @philippe_de_jonckheere CC BY 7/06/2016

      On doit pouvoir détourner une telle connerie pour en faire une machine à écrire une correspondance de fiction entre deux adresses de mèl équipées du même système.

      Philippe De Jonckheere @philippe_de_jonckheere CC BY
    Écrire un commentaire
  • @fil
    Fil @fil 16/12/2014
    1
    @reka
    1
    @lewer @lazuly

    Doc2vec tutorial
    ▻http://radimrehurek.com/2014/12/doc2vec-tutorial

    The latest #gensim release has a new class named #Doc2Vec. All credit for this class, which is an implementation of Quoc Le & Tomáš Mikolov: “Distributed Representations of Sentences and Documents”, as well as for this tutorial, goes to the illustrious Tim Emerick.

    Doc2vec (aka paragraph2vec, aka sentence embeddings) modifies the word2vec algorithm to unsupervised learning of continuous representations for larger blocks of text, such as sentences, paragraphs or entire documents.

    #text-mining cc: @lewer @lazuly

    Fil @fil
    Écrire un commentaire
  • @cnrs
    CNRS - Le Journal (RSS) @cnrs 5/06/2014
    8
    @mad_meg
    @fil
    @7h36
    @reka
    @simplicissimus
    @moderne
    @james
    8

    Démasquer les faux avis du Web
    ►https://lejournal.cnrs.fr/billets/demasquer-les-faux-avis-du-web

    Les faux témoignages sur le Web sont beaucoup plus répandus qu’on ne le pense. Décryptage de cette pratique frauduleuse par Andreas Munzel, spécialiste de l’analyse des avis d’internautes.

    CNRS - Le Journal (RSS) @cnrs
    • @monolecte
      M😷N😷LECTE 🤬 @monolecte CC BY-NC-SA 5/06/2014

      Le développement des logiciels de détection des faux avis a jusqu’ici surtout été l’œuvre de chercheurs états-uniens en informatique qui, grâce aux travaux des linguistes sur le mensonge, sont parvenus à identifier certaines caractéristiques textuelles propres aux faux avis. Ainsi, à l’aide d’indicateurs comme le style ou le niveau de langage, la longueur du texte ou l’emploi de certains mots, les chercheurs affirment pouvoir distinguer les faux avis des vrais avec 90 % de certitude.

      #falsificateurs #linguistique

      M😷N😷LECTE 🤬 @monolecte CC BY-NC-SA
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 6/06/2014

      #text-mining

      RastaPopoulos @rastapopoulos CC BY-NC
    • @thibnton
      tbn @thibnton PUBLIC DOMAIN 17/06/2014

      #hoax

      tbn @thibnton PUBLIC DOMAIN
    Écrire un commentaire
  • @fil
    Fil @fil 6/03/2014
    2
    @severo
    @02myseenthis01
    2

    Very weird «sensitive content» ...
    ▻https://twitter.com/avilarenata/status/441375646908829696
    ▻https://pbs.twimg.com/media/BiAUz-0CcAA8aC4.jpg:large

    #twitter #text-mining (?) #censure (?)

    • #Central Intelligence Agency
    Fil @fil
    • @severo
      severo @severo PUBLIC DOMAIN 6/03/2014

      C’est de l’aide à l’auto-censure

      severo @severo PUBLIC DOMAIN
    • @thibnton
      tbn @thibnton PUBLIC DOMAIN 6/03/2014

      #CIA #surveillance

      tbn @thibnton PUBLIC DOMAIN
    Écrire un commentaire
0 | 25

Thèmes liés

  • industryterm: mining
  • #écrire
  • #machine_learning
  • #gensim
  • #culturomics
  • #visualisation
  • #surveillance
  • #r
  • #recherche
  • #cartographie
  • company: google
  • organization: central intelligence agency
  • #data
  • #spip
  • #femmes
  • person: donald trump
  • #langage
  • #api
  • #geocoder
  • person: kurt vonnegut
  • person: martine aubry
  • company: facebook
  • #littérature
  • #humanités_numériques
  • #outils
  • #vocabulaire
  • company: parti
  • #apprentissage
  • #sulci
  • country: china
  • country: pakistan
  • person: jared keller
  • facility: how stable
  • #presse
  • #topic_modeling
  • #tutoriel
  • #robotisation
  • #email
  • #machine-learning
  • #trolls