#gensim

0 | 25

Fil @fil 18/01/2018

2

2

[1705.08039] Poincaré Embeddings for Learning Hierarchical Representations
▻https://arxiv.org/abs/1705.08039
Representation learning has become an invaluable approach for learning from symbolic data such as text and graphs. However, while complex symbolic datasets often exhibit a latent hierarchical structure, state-of-the-art methods typically learn embeddings in Euclidean vector spaces, which do not account for this property. For this purpose, we introduce a new approach for learning hierarchical representations of symbolic data by embedding them into hyperbolic space — or more precisely into an n-dimensional Poincar\’e ball.
https://arxiv-sanity-sanity-production.s3.amazonaws.com/render-output/35618/plot_wn_mammals_converged_crop.png
#maths #hiérarchie #machine-learning

Fil @fil
- olivier auber @olivier8 ART LIBRE 18/01/2018
  
  Et si le language était de nature quantique ?
  ▻https://arxiv.org/pdf/1204.4914.pdf
  
  olivier auber @olivier8 ART LIBRE
- Fil @fil 19/01/2018
  
  implémenté dans #gensim
  ▻https://rare-technologies.com/implementing-poincare-embeddings
  
  Fil @fil
Écrire un commentaire
Fil @fil 3/05/2017

1

1

Sentiment analysis on Twitter using word2vec and keras - Ahmed Besbes
▻http://ahmedbesbes.com/sentiment-analysis-on-twitter-using-word2vec-and-keras.html
#machine_learning #text-mining #tutoriel #gensim #word2vec

Fil @fil

Écrire un commentaire
Fil @fil 26/03/2017

Dissecting Trump’s Most Rabid Online Following, by Trevor Martin | FiveThirtyEight
▻https://fivethirtyeight.com/features/dissecting-trumps-most-rabid-online-following
▻https://espnfivethirtyeight.files.wordpress.com/2017/03/thedonaldtrumpsubredditalgebra-16x9.jpg?w=2667
Comparing subreddits, with Latent Semantic Analysis in R
▻http://blog.revolutionanalytics.com/2017/03/comparing-subreddits.html
http://revolution-computing.typepad.com/.a/6a010534b1db25970b01bb09872202970d-pi#.jpg
The article looks at various popular and notorious subreddits and finds those that are most similar to the main subreddit devoted to Donald Trump and also to the main other contenders in the 2016 campaign for president, Hillary Clinton and Bernie Sanders.
#machine_learning #LSA #gensim #R #howto #trolls #reddit #text-mining
- #Donald Trump
Fil @fil
Écrire un commentaire
Fil @fil 18/01/2017

1

1

New Gensim feature : Author-topic modeling. LDA with metadata. | RaRe Technologies
▻https://rare-technologies.com/new-gensim-feature-author-topic-modeling-lda-with-metadata
une nouvelle extension pour #gensim qui pourrait être très utile pour des corpus du genre #SPIP : une fois les topics modélisés à partir du #LDA, on sait les associer non seulement aux articles, mais aussi aux tags (mots-clés, auteurs), ce qui permet de savoir quels sont les auteurs proches, les thématiques similaires, etc.
https://rare-technologies.com/wp-content/uploads/2017/01/atmodel_plot-855x645.png
avec aussi du #tSNE pour la #visualisation
#text-mining #machine_learning

Fil @fil

Écrire un commentaire
Fil @fil 12/01/2017

Douwe Osinga’s Blog : Building Spotify’s Song Radio in 100 lines of Python
▻http://blog.douweosinga.com/2017/01/building-spotifys-song-radio-in-100.html
https://2.bp.blogspot.com/-WBabuWF5EYY/WHO0WIq4q3I/AAAAAAACgeQ/1UuWz02Gb80VMBFweOQt2mPythkFJRDCwCLcB/w1200-h630-p-nu/Marconi_at_desk.jpg
the Python library GenSim contains a great implementation of Word2Vec. So if we feed this playlists containing song ids, rather than sentences containing words, it will after a while learn relationships between songs. Suggesting a playlist based on a song becomes than again a straightforward nearest neighbor search.
joli exemple de #machine_learning avec #gensim et quelques lignes de code
#musique #playlists

Fil @fil

Écrire un commentaire
Fil @fil 8/01/2017

1

1

Chris Harrison | WordAssociations
▻http://www.chrisharrison.net/index.php/Visualizations/WordAssociations
http://chrisharrison.net/projects/wordassociation/v2/wood-metal-dist0Viz7.gif
où l’on voit que l’#intelligence_artificielle reproduit les #stéréotypes (dans le schéma dumb—smart, le mot blond est très en évidence)
▻http://p.migdal.pl/2017/01/06/king-man-woman-queen-why.html
#word2vec #gensim

Fil @fil

Écrire un commentaire
Fil @fil 20/07/2016

3

3

Applying Data Science to the Supreme Court: Topic Modeling Over Time with #NMF (and a #D3.js bonus) — Emily Barry
▻http://www.emilyinamillion.me/blog/2016/7/13/visualizing-supreme-court-topics-over-time
http://static1.squarespace.com/static/57293859b09f959325ac2e33/t/578c6f0be4fcb586153817d5/1468821289558/?format=1000w#.jpg
LDA was the obvious choice to do first, as is evident when you google “#topic_modeling algorithm.” (...)
Then I read about Non-negative Matrix Factorization (NMF) and found that in uses similar to mine, its robustness far surpassed LDA. NMF extracts latent features via matrix decomposition, and you can use TFIDF which is a huge plus.
#text-mining #gensim ping @lewer

Fil @fil

Écrire un commentaire
Fil @fil 27/04/2016

Big Social Data Analytics in Journalism and Mass Communication
▻http://jmq.sagepub.com/content/early/2016/03/29/1077699016639231.full
this present study is the first attempt to validate the efficacy of the LDA model in the context of journalism and mass communication research. Considering its decent performance, future research should consider using this method to analyze mass communication text, especially to process large-scaled social media data. For example, when communication scholars have a big dataset, but are unsure of the topics or attributes that exist inside of it, our results suggest the LDA-based analysis will be more effective than using the most frequently used words to devise topic lists.
#gensim #topics #LDA #data_journalisme

Fil @fil

Écrire un commentaire
schrödinger @erratic 24/04/2016

15

15

Une grosse majorité des contenus Facebook vous sont cachés
▻http://www.numerama.com/magazine/30297-une-grosse-majorite-des-contenus-facebook-vous-sont-caches.html
Fin 2013, Facebook a ainsi annoncé le déploiement d’un nouvel algorithme de tri des fils d’actualités, officiellement pour donner la priorité aux « contenus de grande qualité » (officieusement pour vendre des « promotion des publications » à prix d’or), se permettant de fait de manipuler l’information que les internautes partagent avec le réseau social.
Un journaliste du Washington Post a passé son temps à comparer le nombre de publications apparaissant dans son fil d’actualité, au contenu publié par ses amis et pages qu’il aime. Résultat : seulement 29% de tout ce contenu figure dans son fil.
Facebook fait le tri pour vous concernant ce qui peut vous intéresser.
Mais le risque pour chaque utilisateur est alors de s’enfermer dans ses propres convictions, centres d’intérêts et opinions, partagées par les seuls pairs qui ont sensiblement les mêmes. C’est l’absence de dissonance cognitive faite reine, avec un risque effroyable d’appauvrissement intellectuel et de radicalisations mutuelles. Ne communiqueront ensemble que ceux qui partagent les mêmes vues et publient de quoi remettre de l’eau au moulin. Tout opinion dissidente, parce que peu partagée par son cercle d’amis, restera invisible.

Et maintenant cela devient pire : Le temps de lecture est pris en compte et Facebook compte fouiller dans le contenu disponible pour diversifier vos lectures.
Facebook renforce la personnalisation de votre fil d’actualité
▻http://www.numerama.com/tech/165617-facebook-renforce-la-personnalisation-de-votre-fil-dactualite.html
Après avoir compilé des données sur chaque utilisateur, Facebook adaptera le fil d’actualité en fonction, avec des contenus susceptibles de l’intéresser au maximum en intégrant de nouveaux éléments. En premier lieu, le temps passé sur une publication est dorénavant considéré comme un indicateur d’interêt. C’est une donnée largement utilisée par les producteurs de contenu.
Facebook appelle cela son Feed Quality Program
▻http://newsroom.fb.com/news/2016/04/news-feed-fyi-more-articles-you-want-to-spend-time-viewing
Faites confiance à Facebook et outsourcez-lui votre cognition.
#Facebook_manipulation
#consonance_positive #positive_consonance
- #Facebook
schrödinger @erratic
- Fil @fil 24/04/2016
  
  Il y a plusieurs problèmes avec des flux qui peuvent devenir énormes, et je comprends que facebook cherche à les organiser ; mais c’est sans doute la méthode adoptée (masquer ce qu’on like le moins, si j’ai bien compris) qui pose question.
  Avec seenthis on a un terrain d’expérimentation pour d’autres méthodes ; par exemple, je me demande si un groupement automatique des messages par « topics » (LSI) serait utile.
  
  Fil @fil
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 25/04/2016
  
  @fil selon quelles modalités ?
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- Fil @fil 25/04/2016
  
  Je ne sais pas, il faudrait faire des essais. Les techniques de LSI (cf le tag #gensim) permettent de reconnaître que deux articles ont plus mots en communs que deux autres, et de définir ainsi des regroupements plus ou moins « pertinents ». On pourrait imaginer une interface où les posts de seenthis seraient triés dans des « boîtes » définies de cette manière. Ce qui fait que si tu as dans ton flux 50 posts à lire, tu aurais d’abord les 20 messages traitant plus ou moins de cinéma, puis 10 parlant plus ou moins de cartographie, puis 5 sur les migrants, 8 sur nuitdebout, et enfin les « isolés ».
  
  Fil @fil
- Supergéante @supergeante 25/04/2016
  
  LSI ?
  
  Supergéante @supergeante
- Fil @fil 25/04/2016
  
  LSI = latent semantic indexing
  Il s’agit d’appliquer des calculs statistiques sur les mots employés dans chaque article, pour faire surgir des « thèmes » (ou topics). Ces topics formeront les n dimensions d’un espace où l’on pourra « projeter » chaque texte, sous forme d’un point.
  Par exemple si notre corpus de texte comporte des textes sur le cinéma et les migrants, et qu’on choisit n=2, les topics seront « 1) film écran scénario » et « 2) frontière passeport police » ; enfin c’est l’idée, et justement le but de ces algorithmes est de trouver des topics pertinents.
  Un article est représenté par un point dans cet espace, avec des coordonnées du type (1,0) ; (0.5,0.5) : le premier parle exclusivement de cinéma, le second parle un peu de cinéma et un peu de migrants.
  On applique ensuite diverses méthodes selon la question qui nous intéresse, par exemple :
  – quels sont les articles proches de telle phrase ? => moteur de recherche
  – peut-on former des groupements d’articles ? => clustering
  – prendre un article en anglais, le passer dans google translate, chercher quelque chose qui ressemble au tas de mots récupérés => recherche de l’article source d’une traduction.
  Voilà c’est ça l’idée de base, et #gensim est un outil génial pour traiter des corpus de textes, et leur appliquer ce type d’algorithmes. Mais il ne fait pas le café et c’est à nous de voir comment on peut l’utiliser et pour faire quoi.
  
  Fil @fil
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 25/04/2016
  
  Bon, ben, faut tester ton truc qui donne mal à la tête ?
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- Cyrille37 @cyrille37 PUBLIC DOMAIN 25/04/2016
  
  Bonjour. Juste pour rappeler, sans vouloir porter de jugement, que Facebook n’est pas un service public. Alors si on aime pas, on achète pas (même si c’est gratuit).
  
  Cyrille37 @cyrille37 PUBLIC DOMAIN
Écrire un commentaire
Nicolas Hoizey @nhoizey CC BY-NC-SA 3/02/2016

Github for Writers - Made By Loren
▻http://www.madebyloren.com/github-for-writers
I’m building #Penflip, a collaborative writing platform. It’s similar to GitHub, but designed for writing instead of coding. Tags: #Markdown #livre #collaboratif Penflip #clevermarks

Nicolas Hoizey @nhoizey CC BY-NC-SA
- Fil @fil 3/02/2016
  
  ►http://seenthis.net/messages/169633 :)
  
  Fil @fil
- Nicolas Hoizey @nhoizey CC BY-NC-SA 3/02/2016
  
  @fil wow, tu as en tête tous les billets Seenthis ? ;-)
  Ce serait pas mal que @seenthis fasse automatiquement les rapprochements, d’ailleurs…
  
  Nicolas Hoizey @nhoizey CC BY-NC-SA
- Fil @fil 3/02/2016
  
  certains que j’ai déjà vus sur des sujets qui m’intéressent beaucoup, oui !
  pour ce qui est de développer l’IA de seenthis je suis tout à fait d’accord : #gogogo
  
  Fil @fil
- RastaPopoulos @rastapopoulos CC BY-NC 3/02/2016
  
  Bah déjà dans un premier temps, ya le bug que là ça ne repère pas le même URL avec ou sans « www » (et aussi entre HTTP et HTTPS), et que donc pendant que tu ajoutes ton seen, tu ne vois pas que ça existe déjà (quand c’est vraiment vraiment le même URL, Seenthis te le montre, trop discrètement à mon goût, mais ça te le montre).
  Après, quand j’ai un truc en tête (par exemple ici « Penflip »), assez souvent je cherche avant pour savoir si on en a déjà parlé avec la recherche libre, même quand je n’ai pas souvenir de l’avoir vu passé (ce qui arrive souvent quand même) :
  ▻http://seenthis.net/recherche?recherche=penflip
  C’est une étape « un peu » plus compliquée, que d’analyser ce qu’on est en train de taper, et d’arriver à afficher, au-delà de juste la comparaison d’URL, ce qui semble être sur le même sujet (mais je sais que ça se fait, ça existe, c’est juste plus compliqué…).
  
  RastaPopoulos @rastapopoulos CC BY-NC
- Fil @fil 3/02/2016
  
  oui sur le plan purement technique on saurait faire avec #gensim ; après, il faudrait y consacrer du temps, et vu que déjà on n’arrive pas à s’occuper de l’hébergement …
  
  Fil @fil
- Nicolas Hoizey @nhoizey CC BY-NC-SA 3/02/2016
  
  @rastapopoulos mes seens viennent en fait tous (ou presque) de mes bookmarks Pinboard, donc cette étape n’est pas jouable pour moi
  
  Nicolas Hoizey @nhoizey CC BY-NC-SA
- Nicolas🌱 @nicolasm CC BY-SA 3/02/2016
  
  Je vois plutôt de l’aide à la détection :
  Sur les doublons, faire un bot qui met en commentaire « on en parle ici aussi url-seenthis » sur les urls redondantes
  Peut être afficher les derniers seen (ou du jour) avec les même mots clefs qq part pour facilement voir si l’actu a déjà été traitée même avec une url différente ?
  
  Nicolas🌱 @nicolasm CC BY-SA
Écrire un commentaire
Fil @fil 25/08/2015

2

2

transorthogonal-linguistics
▻https://transorthogonal-linguistics.herokuapp.com
essayer avec “sociology” + “mathematics” puis comparer avec xkcd: #Purity
▻https://xkcd.com/435
https://imgs.xkcd.com/comics/purity.png
#gensim #word2vec #culturomics

Fil @fil
- RastaPopoulos @rastapopoulos CC BY-NC 25/08/2015
  
  birth
  stillborn
  newborn
  infant, unborn
  childbirth, marriage
  remarriage, premature
  mother, grandmother, divorcing
  stepfather, dying, disappearance, arrival
  incarceration, downfall, untimely, father, demise, abdication
  resignation
  retirement
  death
  
  RastaPopoulos @rastapopoulos CC BY-NC
Écrire un commentaire
Fil @fil 20/08/2015

1

1

Comment le New York Times utilise #slack
▻http://www.niemanlab.org/2015/08/the-new-york-times-live-blogged-last-nights-gop-debate-directly-from-slac
►http://www.niemanlab.org/2015/08/the-new-york-times-built-a-slack-bot-to-help-decide-which-stories-to-post
(#irc #presse)
Building the Next New York Times Recommendation Engine - The New York Times
▻http://open.blogs.nytimes.com/2015/08/11/building-the-next-new-york-times-recommendation-engine
In this post, I’ll discuss our recent work revamping The New York Times’s article recommendation algorithm, which currently serves behind the Recommended for You section of NYTimes.com.
#LDA #gensim

Fil @fil
- tbn @thibnton PUBLIC DOMAIN 14/09/2015
  
  #recommandation #algorithmie #sites_de_presse
  
  tbn @thibnton PUBLIC DOMAIN
Écrire un commentaire
robin @robin CC BY 7/08/2015

Deeplearning4j - Open-source, distributed deep learning for the JVM
▻http://deeplearning4j.org/restrictedboltzmannmachine.html
Invented by Geoff Hinton, Restricted Boltzmann machines are useful for dimensionality reduction, classification, regression, collaborative filtering, feature learning and topic modeling.

robin @robin CC BY
- Fil @fil 7/08/2015
  
  dans le monde #python voir #gensim
  
  Fil @fil
Écrire un commentaire
Fil @fil 1/07/2015

2

2

Skip-Thought Vectors
▻http://arxiv.org/abs/1506.06726
After training our model, we extract and evaluate our vectors with linear models on 8 tasks: semantic relatedness, paraphrase detection, image-sentence ranking, question-type classification and 4 benchmark sentiment and subjectivity datasets. The end result is an off-the-shelf encoder that can produce highly generic sentence representations that are robust and perform well in practice. We will make our encoder publicly available.
#machine_larning #NLP #écriture_automatique via #gensim

Fil @fil

Écrire un commentaire
Archiloque @archiloque CC BY 31/01/2015

High-Reproducibility and High-Accuracy Method for Automated Topic Classification
▻http://amaral-lab.org/media/publication_pdfs/PhysRevX.5.011007.pdf

Archiloque @archiloque CC BY
- Fil @fil 31/01/2015
  
  je classe ça manuellement chez #gensim (ils implémentent tout ce qui sort de bon)
  
  Fil @fil
Écrire un commentaire
Fil @fil 7/01/2015

2

2

quanteda: Quantitative Analysis of Textual Data
▻http://pnulty.github.io
quanteda1 is an R package designed to simplify the process of quantitative analysis of text from start to finish, making it possible to turn texts into a structured corpus, convert this corpus into a quantitative matrix of features extracted from the texts, and to perform a variety of quantitative analyses
#gensim #R

Fil @fil
- George @george CC BY 7/01/2015
  
  Persée : Portail de revues en sciences humaines et sociales
  ▻http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1982_num_5_1_1086
  
  George @george CC BY
Écrire un commentaire
Fil @fil 16/12/2014

1

1

Doc2vec tutorial
▻http://radimrehurek.com/2014/12/doc2vec-tutorial
The latest #gensim release has a new class named #Doc2Vec. All credit for this class, which is an implementation of Quoc Le & Tomáš Mikolov: “Distributed Representations of Sentences and Documents”, as well as for this tutorial, goes to the illustrious Tim Emerick.
Doc2vec (aka paragraph2vec, aka sentence embeddings) modifies the word2vec algorithm to unsupervised learning of continuous representations for larger blocks of text, such as sentences, paragraphs or entire documents.
#text-mining cc: @lewer @lazuly

Fil @fil

Écrire un commentaire
hubertguillaud @hubertguillaud CC BY 4/12/2014

1

1

Comment Google traduit les images en mots - Technology Review
▻http://alireailleurs.tumblr.com/post/104317135157
https://31.media.tumblr.com/bf2dd4caa99633c7bd1c89a0a8e43679/tumblr_inline_nfykpvMKEu1qz6b8d.png
Les ingénieurs de Google ont mis au point un algorithme auto-apprenant capable de décrire et légender des images, en utilisant les mêmes techniques que celles qu’ils utilisent pour #Google_translate, rapportent la Technology Review et Google Research. L’approche classique de la traduction est un processus itératif qui commence par traduire les mots individuellement puis les réorganise pour l’améliorer. L’approche de Google est différente. Ils comptent le nombre de fois ou les mots apparaissent les uns à côté des autres ou à proximité pour définir des espaces vectoriels et les représente par des combinaisons de vecteurs. Google fait là une hypothèse importante : les mots spécifiques ont une même relation indépendamment de la langue. Par exemple, le vecteur “roi-homme+femme=reine” devrait être vrai dans toutes (...)
#reconnaissance_d'images
- #Google
- #Technology Review
hubertguillaud @hubertguillaud CC BY
- Fil @fil 4/12/2014
  
  tu peux utiliser cet #algorithme (#Word2Vec) avec #gensim
  
  Fil @fil
Écrire un commentaire
Fil @fil 4/02/2014

7

7

Pour sortir tous les textes d’un site #SPIP dans un grand fichier #TSV (un article par ligne) :
echo "SELECT a.id_article,a.titre, a.chapo,a.texte,a.lang, GROUP_CONCAT(DISTINCT u.nom SEPARATOR ', ') AS auteurs, GROUP_CONCAT(DISTINCT m.titre SEPARATOR ', ') AS mots, SUBSTRING(a.date,1,7) AS date FROM spip_articles a LEFT JOIN spip_auteurs_articles au ON a.id_article=au.id_article LEFT JOIN spip_auteurs u ON au.id_auteur=u.id_auteur LEFT JOIN spip_mots_articles am ON a.id_article=am.id_article LEFT JOIN spip_mots m ON am.id_mot=m.id_mot WHERE a.statut IN ('publie') GROUP BY a.id_article;" | mysql $BASE -B > $BASE.tsv
(ici avec un test sur le statut ’publié’) ; ensuite, on peut regarder le nombre d’articles écrits par Untel (ou parlant de « truc »), avec le nombre de mots et de signes correspondants :
zgrep -E 'Untel' $BASE.tsv.gz | wc 1294 1335040 8908699
ici 1294 articles, 1,3 millions de mots, 8,9 millions de caractères
Et si on veut, on peut retraiter ça avec awk, voire en SQL avec #q :
►http://seenthis.net/messages/219474
Après, on va nettoyer tout ça et faire du #text-mining, avec #gensim
- #By
Fil @fil
- Fil @fil 5/02/2014
  
  ça marche super bien @lewer
  
  Fil @fil
- Fil @fil 7/02/2014
  
  le code pour gensim, c’est par ici ▻https://github.com/Fil/habeascorpus
  
  Fil @fil
Écrire un commentaire
vlentz @vlentz CC BY-SA 3/12/2013

1

1

This video is aimed at developers interested in combining machine translation, automatic semantic analysis, human curation, faceted and federated search, and social media to create a machine-assisted multilingual longform content curation engine.
▻http://mathew.blogactiv.eu/2013/12/02/hashtag-europe-developers-cut
▻http://www.youtube.com/watch?v=4EQK8kp9YZQ
#curation #i18n #europe #socialmedia
- #social media
- #machine translation
vlentz @vlentz CC BY-SA
- vlentz @vlentz CC BY-SA 3/12/2013
  
  Des idées pour #seenthis ?
  
  vlentz @vlentz CC BY-SA
- Fil @fil 3/12/2013
  
  voir le sujet #gensim qui m’intéresse bien aussi
  
  Fil @fil
- vlentz @vlentz CC BY-SA 5/12/2013
  
  ▻https://twitter.com/mathewlowry/status/408522430735732737
  
  vlentz @vlentz CC BY-SA
Écrire un commentaire
Fil @fil 3/12/2013

Christian Ledermann - using Plone
▻https://www.youtube.com/watch?v=6GAJuTGoQ7Q&feature=plcp
à partir de 25’ il explique comment il utilise #gensim et #simserver pour proposer les « articles similaires »
#CMS

Fil @fil

Écrire un commentaire
hubertguillaud @hubertguillaud CC BY 18/11/2013

3

3

This Grad Student Hacked Semantic Search To Be Better Than Google ⚙ Co.Labs ⚙ code + community
▻http://www.fastcolabs.com/3021763/this-grad-student-hacked-semantic-search-to-be-better-than-google?partne
THisPlusThat.me est-il un moteur de recherche qui permet de chercher des choses qu’on ne sait pas qu’elles existent ? ▻http://www.thisplusthat.me Tags : internetactu fing internetactu2net #web_semantique #moteurderecherche
- #Google
hubertguillaud @hubertguillaud CC BY
- Fil @fil 19/11/2013
  
  ok alors j’allais juste dire que l’algo #word2vec est intégré dans #gensim (outil de #text_mining). Mais en cherchant une source, je m’aperçois que c’est beaucoup plus intéressant que ça : Radim (l’auteur de gensim) a complètement réécrit word2vec en python, et explique ici comment ça fonctionne et tout :
  ▻http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim
  Avec des exemples frappants :
  # which word doesn’t go with the others?
  model.doesnt_match("breakfast cereal dinner lunch".split())
  ’cereal’
  This already beats the English of some of my friends :-)
  
  Fil @fil
Écrire un commentaire
hubertguillaud @hubertguillaud CC BY 7/11/2013

@fil : Y’a pas un endroit sur @seenthis où on peut voir les articles les plus partagés : de tous les temps, du mois dernier, du mois d’avant, de la semaine... ? Une sorte de best-off de ce que les contributeurs de @seenthis ont préféré, ont le plus commenté, etc. Si ça n’existe pas, c’est dommage. Si ça existe, ce serait bien peut-être de réfléchir à le mettre en avant (barre latérale ou barre d’accueil par exemple).

hubertguillaud @hubertguillaud CC BY
- hubertguillaud @hubertguillaud CC BY 7/11/2013
  
  Ca me fait penser aussi que j’aimerai bien trouver un algo qui permette de faire apparaître les mots qu’on emploie pour la première fois et montrer leur succès (ou pas). Un truc qui afficherai les nouveaux concepts en fait, juste en puisant dans la masse de textes écrits. Bon faudrait certainement nettoyer pas mal (et la limite est certainement là)...
  
  hubertguillaud @hubertguillaud CC BY
- Fil @fil 7/11/2013
  
  non, mais ce qui s’en approche le plus pour le moment ça pourrait être @7h36
  pour ta recherche il faut que tu t’intéresses aux algos de text-mining, j’aime bien #gensim par exemple, mais je n’ai pas bien su quoi faire avec sur la base seenthis
  
  Fil @fil
Écrire un commentaire
Fil @fil 16/05/2012

2

2

Gmvault: GMail backup
▻http://gmvault.org
Backup and restore your gmail account at will.
#libre #email #google via @framaka et @neofutur

Fil @fil
- Fil @fil 17/05/2012
  
  le stockage des emails sur le disque cible se fait en mode « fichier » ce qui est très sympa pour lire les données (et les modifier), mais bouffe beaucoup d’espace. D’autant qu’il y a deux fichiers par email : un fichier .eml.gz de contenu zipé, et un fichier.meta indiquant les tags, threads, etc.
  https://dl.dropbox.com/s/7y5pygw226iit01/gmvault-db-tree.png
  exemple de contenu du .meta (format JSON)
  {"msg_id" : null, « gm_id » : 1402069367263435102, « labels » : ["\\Inbox"], « thread_ids » : 1402069367263435102, « flags » : ["\\Seen"], « internal_date » : 1337124745, « subject » : null}
  
  Fil @fil
- Fil @fil 17/05/2012
  
  évidemment ça donne envie d’appliquer #gensim sur ce corpus pour tagguer automagiquement les mails
  
  Fil @fil
Écrire un commentaire
Fil @fil 10/04/2012

2

2

Machine #Learning in R : Clustering
►http://horicky.blogspot.fr/2012/04/machine-learning-in-r-clustering.html
#Clustering is a very common technique in unsupervised machine learning to discover groups of data that are “close-by” to each other. (...) some very basic algorithms to come up with clusters, and use #R as examples.
http://4.bp.blogspot.com/-Ne599yhehn4/T4NS9Q1d3eI/AAAAAAAAAoM/Uxyl3n25OUY/s1600/p1.png
j’aimerais bien apparier ça avec #gensim tiens…
http://3.bp.blogspot.com/-8mFiw1nFfUo/T4NNE5LK6NI/AAAAAAAAAoA/i8Og4oFugIg/s320/p1.png

#programmation

Fil @fil

Écrire un commentaire

0 | 25