Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

Five Filters

http://fivefilters.org

  • ►/explore_independent_media.php
  • ►/pdf-newspaper
  • ►/content-only
  • ►/term-extraction
  • Ari @ari 1/02/2013 18:42
    1
    @goom
    1

    Twitted Times + FullTextRssFeed : curation « consolidée » ?
    http://tweetedtimes.com

    - Most important from your Twitter stream
    The Tweeted Times aggregates news in your Twitter stream and ranks them by popularity among your friends. Never miss any important news!
    – Real-time news
    The Tweeted Times rebuilds your newspaper hourly, and is always up-to-date

    http://fulltextrssfeed.com

    Love RSS, but hate when feeds just display snippets?
    Regain control of your feeds and get the full text of every article, blog post and story! Enter the feed URL above and click the “submit” button to receive your new full-text feed URL that you can use anywhere.

    Je cherche une manière de récupérer rapidement les liens les plus partagés par les personnes que je suis, ou ceux d’une liste Twitter spécifique ou d’un hashtag, pour les publier automatiquement sur une page à la rezo.net.
    Après avoir testé différentes solutions, Twitted Times me paraît le mieux. Le flux RSS généré n’est pas très intéressant, mais une fois passé dans fulltextrssfeed, c’est pas mal. D’autres idées ou solutions ?
    Exemple avec #NDDL :
    – http://tweetedtimes.com/#!/search/%23NDDL/fr
    – http://fulltextrssfeed.com/tweetedtimes.com/search/%23NDDL/fr/rss.xml

    • #Twitter
    Ari @ari
    • Fil @fil 1/02/2013 20:56

      je te propose plutôt ►http://fivefilters.org/content-only qui est fait par un type bien

      Fil @fil
    • Ari @ari 3/02/2013 23:46
      @fil

      Merci @fil je ne connaissais pas cet outil de Five Filters. Pas d’outil libre par contre pour faire ressortir les liens les plus intéressants de Twitter ?

      Ari @ari
    • Fil @fil 3/02/2013 23:57

      non, pas d’idée — mais tu peux utiliser #ttytter pour indexer dans une base mysql tous les tweets que tu veux (ceux marqués #NDDL par exemple) et ensuite faire ta sauce avec ça

      Fil @fil
    Écrire un commentaire

  • Agnès Maillard @monolecte CC BY-NC-SA 12/04/2012 10:50

    Coup de main
    Vous connaissez un moyen de créer un flux RSS pour une page qui n’en génère pas ?
    #fb #tw

    • #Yahoo
    Agnès Maillard @monolecte CC BY-NC-SA
    • speciale @speciale 12/04/2012 11:46

      Tu veux dire une page éditée manuellement ? Normalement ça se fait automatiquement, avec un machin qui fait du XML

      speciale @speciale
    • RastaPopoulos @rastapopoulos CC BY-NC 12/04/2012 14:50
      @suske

      J’en connais qui ont fait ça avec #SPIP 3 et les #Itérateurs : un squelette qui utilise le service web de Yahoo #YQL et qui va chercher le contenu HTML d’une page et le retransforme en flux #RSS ou #Atom.

      Je crois que @suske a fait ça, non ?

      #spip-3

      RastaPopoulos @rastapopoulos CC BY-NC
    • Suske @suske CC BY 12/04/2012 15:53
      @rastapopoulos @monolecte

      ouep, on peut faire ça avec #SPIP et les #itérateurs, comme @rastapopoulos a dit. Il faut juste que la page soit un minimum structurée et bien balisée, forcément. Puis bon, ça demande un peu de chipot mais c’est faisable et bien pratique. Donne une url @monolecte...

      Suske @suske CC BY
    • bohwaz @bohwaz ART LIBRE 12/04/2012 17:52

      Encore plus simple : ►http://fivefilters.org/content-only

      bohwaz @bohwaz ART LIBRE
    • Agnès Maillard @monolecte CC BY-NC-SA 12/04/2012 20:02

      L’URL que je veux veiller : http://www.wsws.org/francais
      C’est fait avec les pieds mais j’aimerais être au courant chaque fois que ce site sort un nouvel article en français.

      Agnès Maillard @monolecte CC BY-NC-SA
    • Suske @suske CC BY 12/04/2012 22:10

      Ouééééé, avec des vrais morceaux de table inside et des font size="2" face="Arial" color="#003366" comme on en fait plus ;-)

      Je regarde ça ce week-end.

      Suske @suske CC BY
    • RastaPopoulos @rastapopoulos CC BY-NC 13/04/2012 12:15

      Ce qui est super compliqué c’est que le HTML n’est même pas valide et ya carrément des manques d’imbrications de plusieurs balises (mal ou pas fermées).

      YQL passe le résultat par HTML Tidy qui reformate tout du mieux qu’il peut, donc c’est sur ce résultat re-formaté qu’on fait la recherche (et non pas sur ce que montre Firebug quand on visualise la page, car lui aussi reformate mais pas forcément pareil que Tidy).

      Premiers éléments, avec cette requête (faut tout copier, Seenthis ne reconnait pas bien l’URL) tu as uniquement les paragraphes centraux qui sont soit des dates (ceux avec « font » dedans) soit des articles (ceux avec « a » dedans) :
      ►http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsws.org%2Ffrancais%2F%22%20and%20xpath%3D%22%2Fhtml%2Fbody%2Ftable%5B1%5D%2Ftbody%2Ftr%2Ftd%5B3%5D%2Ftable%2Ftbody%2Ftr%2Ftd%22

      Ensuite faut boucler dessus et construire le XML du flux RSS :
      – quand on tombe sur une date, la transformer en vraie date informatique et la mettre en mémoire pour l’assigner aux liens qui suivent
      – quand on tombe sur des liens, utiliser la dernière date trouvée comme date de l’article

      RastaPopoulos @rastapopoulos CC BY-NC
    • Suske @suske CC BY 13/04/2012 18:46

      Ouhlà, ça va être compliqué. Ce site c’est du fait main pas w3c compliant (du tout) et là ils ont ajouté un pavé (dans la mare) qui casse déjà la requête de RastaPopoulos...

      Suske @suske CC BY
    • RastaPopoulos @rastapopoulos CC BY-NC 14/04/2012 00:00

      Une requête plus résistante : tous les liens pointant vers un truc en « News/20... » :
      ►http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsws.org%2Ffrancais%2F%22%20and%20xpath%3D%22%2F%2Fa%5Bcontains(%40href%2C’News%2F20’)%5D%22

      RastaPopoulos @rastapopoulos CC BY-NC
    • RastaPopoulos @rastapopoulos CC BY-NC 14/04/2012 14:41

      Et voilà chère amie :
      http://rastapopoulos.artizanal.info/notes/spip.php?page=rss-wsws

      Et le squelette que tu peux adapter à ton besoin :
      http://rastapopoulos.artizanal.info/notes/squelettes/rss-wsws.html

      #squelette #boucle #data #YQL #SPIP3

      • #France
      • #Toulouse
      • #USD
      RastaPopoulos @rastapopoulos CC BY-NC
    • Agnès Maillard @monolecte CC BY-NC-SA 14/04/2012 14:58

      Whouhaou, impressionnée je suis... et ça marche !

      Tu devrais aussi partager sur Spip-contrib...

      Agnès Maillard @monolecte CC BY-NC-SA
    • Suske @suske CC BY 14/04/2012 16:30

      Ah ben je l’avais proposé avant de te lire (le partage sur contrib)... Mais oui, c’est une bonne idée, d’autant que ça te permettra de voir que si le rss est fonctionnel en l’état, il pourrait être cassé dans plusieurs cas de figure (le code produit sur ce site n’est vraiment pas propre). C’est dans ma todo (documenter est un job parfois assez fastidieux).

      Suske @suske CC BY
    • RastaPopoulos @rastapopoulos CC BY-NC 16/02/2013 16:53

      Et voilà, c’était pas si compliqué, j’ai mis à jour le squelette (toujours au même endroit donc les URLs ci-dessus).

      J’ai juste changé l’URL de base qui est « /fr/ » maintenant, et changé « News/ » par « articles/ » dans le test de l’URL pour trouver la date.

      RastaPopoulos @rastapopoulos CC BY-NC
    • Agnès Maillard @monolecte CC BY-NC-SA 16/02/2013 17:00

      J’ajoute ma contrib : ►http://www.feed43.com/1863156282864312.xml
      modifiable là : ►http://www.feed43.com/feed.html?name=1863156282864312

      Agnès Maillard @monolecte CC BY-NC-SA
    • Agnès Maillard @monolecte CC BY-NC-SA 16/02/2013 17:04

      Y avait ça, aussi, je le garde en mémoire : http://www.rsspect.com
      #RSS

      Agnès Maillard @monolecte CC BY-NC-SA
    Écrire un commentaire

  • Fil @fil 25/03/2011 20:32

    Convertir des pages web et des tweets au format « journal » avec Joliprint
    http://www.presse-citron.net/convertir-des-pages-web-et-des-tweets-au-format-journal-avec-joliprin

    Le service http://joliprint.com propose de convertir une URL (ou plusieurs) en un PDF imprimable ou lisible offline.

    Presse-citron est enthousiaste :

    autres services sont proposés, comme cet ingénieux convertisseur de tweets en #PDF : vous trouvez une info intéressante et vous voulez la lire plus tard, il suffit d’envoyer son URL raccourcie du type bit.ly/machinchose à @myPDF et vous recevez quelques minutes plus tard en message privé
    Je vais continuer à tester mais il se pourrait bien que Joliprint remplace chez moi la doublette #Readability – PDF Converter.

    Mes quelques tests sont moins délirants, par exemple sur le diplo on perd les notes de bas de page ; je préfère les outils (libres) de Keyvan (►http://fivefilters.org), qu’il continue d’ailleurs à développer... Bientôt quelques prototypes à montrer...

    Fil @fil
    Écrire un commentaire

  • Fil @fil 10/03/2011 09:51
    5
    @jjllnn
    @izo
    @aris
    @miguelitolovelace
    @rastapopoulos
    5
    @arno

    Five Filters
    ►http://fivefilters.org

    en cherchant de quoi faire des #livres/#ebooks à partir du Web, je tombe (merci @arno) sur ce site (géré par Keyvan Minoukadeh). Lequel citant Edward Herman et Noam Chomsky vise à créer des technos qui favorisent la diffusion de médias indépendants :

    The aim of this project is to encourage people to start exploring the world of non-corporate online news, websites which avoid the five filters of the propaganda model.

    Le premier outil « Explore independent media » est marrant, de l’ordre de la performance artistique : on lui donne une dépêche d’agence, et il cherche dans une liste de sources d’infos indy des articles sur le sujet ; puis propose d’exporter ces articles vers un #PDF pour une lecture avancée.
    http://fivefilters.org/explore_independent_media.php

    Il y a aussi Fulltext-RSS et PDF_newspaper ; qui permettent à partir d’un flux #RSS, d’extraire les articles complets (via #readability, qu’il a porté en #PHP et que j’ai désormais intégré dans #SPIP), puis de produire un PDF (via la librairie #TCPDF)
    http://fivefilters.org/pdf-newspaper
    ►http://fivefilters.org/content-only

    Enfin #term_extraction permet d’extraire des concepts d’un texte (comme #OpenCalais sur #seenthis, mais en licence libre).
    ►http://fivefilters.org/term-extraction

    Le modèle économique est sympa : c’est du libre, mais on peut payer (pas cher !) pour une version gérée en #SaaS.

    Et puis :

    We’re happy to help activists/anarchists/progressives set this up on their servers. For anyone else, please email for paid support.

    • #PDF
    • #Keyvan Minoukadeh
    • #Noam Chomsky
    • #Edward Herman
    • #Java
    • #Java
    Fil @fil
    • Ward J. Littell @wardlittell 10/03/2011 11:06

      C’est intéressant en effet.

      Cet article rejoint cependant une problématique qui m’est chère : celle de la consultation des contenus recensés comme intéressants au cours d’une journée.

      En ce qui me concerne, je suis de moins en moins intéressé par des extractions vers PDF, et beaucoup plus par les formats mobiles (et réexploitables) de type ePub et Mobi. Heureux possesseur d’un Kindle depuis Noël (merci Mamie !), je galère avec des PDF formatés en A4 et qui m’obligent à zoomer, scroller ou tenir le Kindle en mode paysage (moins pratique). J’imagine que le problème se pose pour la plupart des possesseurs d’ebooks.

      Du coup, j’utilise Instapaper (►http://www.instapaper.com) comme agrégateur de contenu (j’envoie les articles qui m’intéressent vers mon compte directement depuis mon navigateur, avec un Bookmarklet type +Seenthis, ou depuis le lecteur de flux RSS NetNewsWire ou encore depuis l’appli officielle de Twitter sur iPhone), et je récupère le tout au format Mobi le soir pour lire ça sous la couette (il faut quand même en passer par la case téléchargement et transfert en USB de l’ordinateur vers le Kindle).

      Serais donc preneur d’un flux SeenThis au format Mobi (ou ePub, la conversion se fait facilement)....

      #epub #mobi #kindle #instapaper

      Ward J. Littell @wardlittell
    • Mathieu Drouet @izo 10/03/2011 12:13

      Et un machin comme ça : ►http://www.phpclasses.org/package/6115-PHP-Create-ebook-in-EPUB-format-for-ex-Apple-iPad.html

      #spip -> #epub ?

      Pour Plateformag, je me demande si je vais pas distribuer le pdf dans un flux podcast sur itunes (on a le droit) pour faire une lecture dans Ibooks mais la c’est pas le sujet

      • #author
      Mathieu Drouet @izo
    Écrire un commentaire

  • Clochix @clochix CC BY 22/02/2011 01:19
    4
    @aris
    @fil
    @peweck
    @nhoizey
    4

    Certains auront remarqué, dans la colonne de gauche à côté du détail de chaque note (au fait, c’est quoi le nom d’un article sur SeenThis ? euh, suis-je bête, un seen, bien sûr), à côté de chaque seen donc, en plus des thèmes choisis par l’auteur au moyen des étiquettes dièses, une liste de thèmes automatiques. Celle-ci est créée par analyse du seen par OpenCalais, un outil développé par Reuteurs et capable d’extraire d’un texte des métadonnées sémantiques. Malheureusement, jusqu’à présent, je le trouve un peu limité, il extrait essentiellement les noms propres. J’ai donc fait un rapide tour de quelques autres analyseurs sémantiques qui proposent une interface de démonstration en ligne, pour avoir une idée de l’état de l’art des outils accessibles au grand public. Voici donc quatre URL qui vous permettront de réaliser quelque tests :

    AlchemyAPI http://www.alchemyapi.com/api/demo.html
    OpenCalais http://viewer.opencalais.com
    Zemanta http://www.zemanta.com/demo
    OpenAmplify http://portaltnx20.openamplify.com/AmplifyWeb_v21/AmplifyThis.html A la différence des trois précédents, ce dernier demande une clé d’API qui nécessite de s’inscrire. L’interface propose de nombreuses options, je vous conseille d’essayer les formats de sortie Tidy XML ou Signals ;

    Ces démos sont bien sûr biaisées : les formulaires ne proposent pas toutes les options des API. Et je n’ai pas vérifié lesquels de ces quatre outils annoncent être effectivement capables d’analyser des textes en français.
    Alchemy s’en sort plutôt bien, parvenant à extraire des textes les noms propres et quelques mots clés. Calais est lui malheureusement limité aux noms propres. Zemanta propose des mots clés et des contenus liés qui peuvent être très pertinents… mais dont le rapport avec mon texte m’échappe parfois. Enfin, OpenAmplifiy est celui qui m’a le plus impressionné, par la richesse des données qu’il produit et en particuliers les informations sur le ton du texte et la personnalité de l’auteur. Mais là encore, la pertinence varie de « waouh » à « wtf ‽‽‽ ».

    Au final, ces démos sont utiles pour avoir une idée des données que chaque outil peut produire. Mais pour vraiment savoir ce qu’ils ont dans le ventre, ils faut passer à l’étape suivante et essayer les API. Ce qui ne semble pas très compliqué, REST étant sauf erreur de ma part la norme.

    #Sémantique #AnalyseSémantique #WebSémantique

    • #Calais
    • #Watchmen
    • #natural language parsing technology
    • #machine learning
    • #natural language parsing technology
    Clochix @clochix CC BY
    • Fil @fil 10/03/2011 10:07

      ajouter ►http://fivefilters.org/term-extraction
      cf. http://seenthis.net/messages/13515

      • #Keyvan Minoukadeh
      Fil @fil
    Écrire un commentaire

thèmes de ce site

  • Person: Edward Herman
  • Person: Noam Chomsky
  • IndustryTerm: credible solutions
  • PublishedMedium: The Independent
  • PublishedMedium: The Guardian
  • Company: The Guardian
  • IndustryTerm: corporate media
thématisation automatique par OpenCalais