Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

 
RSS: Agnès Maillard
tous les messages de Agnès Maillard

Agnès Maillard

@monolecte

Fauteuse de merde

http://blog.monolecte.fr
  • Agnès Maillard @monolecte CC BY-NC-SA 12/04/2012 10:50

    Coup de main
    Vous connaissez un moyen de créer un flux RSS pour une page qui n’en génère pas ?
    #fb #tw

    • #Yahoo
    Agnès Maillard @monolecte CC BY-NC-SA
    • speciale @speciale 12/04/2012 11:46

      Tu veux dire une page éditée manuellement ? Normalement ça se fait automatiquement, avec un machin qui fait du XML

      speciale @speciale
    • RastaPopoulos @rastapopoulos CC BY-NC 12/04/2012 14:50
      @suske

      J’en connais qui ont fait ça avec #SPIP 3 et les #Itérateurs : un squelette qui utilise le service web de Yahoo #YQL et qui va chercher le contenu HTML d’une page et le retransforme en flux #RSS ou #Atom.

      Je crois que @suske a fait ça, non ?

      #spip-3

      RastaPopoulos @rastapopoulos CC BY-NC
    • Suske @suske CC BY 12/04/2012 15:53
      @rastapopoulos @monolecte

      ouep, on peut faire ça avec #SPIP et les #itérateurs, comme @rastapopoulos a dit. Il faut juste que la page soit un minimum structurée et bien balisée, forcément. Puis bon, ça demande un peu de chipot mais c’est faisable et bien pratique. Donne une url @monolecte...

      Suske @suske CC BY
    • bohwaz @bohwaz ART LIBRE 12/04/2012 17:52

      Encore plus simple : ►http://fivefilters.org/content-only

      bohwaz @bohwaz ART LIBRE
    • Agnès Maillard @monolecte CC BY-NC-SA 12/04/2012 20:02

      L’URL que je veux veiller : http://www.wsws.org/francais
      C’est fait avec les pieds mais j’aimerais être au courant chaque fois que ce site sort un nouvel article en français.

      Agnès Maillard @monolecte CC BY-NC-SA
    • Suske @suske CC BY 12/04/2012 22:10

      Ouééééé, avec des vrais morceaux de table inside et des font size="2" face="Arial" color="#003366" comme on en fait plus ;-)

      Je regarde ça ce week-end.

      Suske @suske CC BY
    • RastaPopoulos @rastapopoulos CC BY-NC 13/04/2012 12:15

      Ce qui est super compliqué c’est que le HTML n’est même pas valide et ya carrément des manques d’imbrications de plusieurs balises (mal ou pas fermées).

      YQL passe le résultat par HTML Tidy qui reformate tout du mieux qu’il peut, donc c’est sur ce résultat re-formaté qu’on fait la recherche (et non pas sur ce que montre Firebug quand on visualise la page, car lui aussi reformate mais pas forcément pareil que Tidy).

      Premiers éléments, avec cette requête (faut tout copier, Seenthis ne reconnait pas bien l’URL) tu as uniquement les paragraphes centraux qui sont soit des dates (ceux avec « font » dedans) soit des articles (ceux avec « a » dedans) :
      ►http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsws.org%2Ffrancais%2F%22%20and%20xpath%3D%22%2Fhtml%2Fbody%2Ftable%5B1%5D%2Ftbody%2Ftr%2Ftd%5B3%5D%2Ftable%2Ftbody%2Ftr%2Ftd%22

      Ensuite faut boucler dessus et construire le XML du flux RSS :
      – quand on tombe sur une date, la transformer en vraie date informatique et la mettre en mémoire pour l’assigner aux liens qui suivent
      – quand on tombe sur des liens, utiliser la dernière date trouvée comme date de l’article

      RastaPopoulos @rastapopoulos CC BY-NC
    • Suske @suske CC BY 13/04/2012 18:46

      Ouhlà, ça va être compliqué. Ce site c’est du fait main pas w3c compliant (du tout) et là ils ont ajouté un pavé (dans la mare) qui casse déjà la requête de RastaPopoulos...

      Suske @suske CC BY
    • RastaPopoulos @rastapopoulos CC BY-NC 14/04/2012 00:00

      Une requête plus résistante : tous les liens pointant vers un truc en « News/20... » :
      ►http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsws.org%2Ffrancais%2F%22%20and%20xpath%3D%22%2F%2Fa%5Bcontains(%40href%2C’News%2F20’)%5D%22

      RastaPopoulos @rastapopoulos CC BY-NC
    • RastaPopoulos @rastapopoulos CC BY-NC 14/04/2012 14:41

      Et voilà chère amie :
      http://rastapopoulos.artizanal.info/notes/spip.php?page=rss-wsws

      Et le squelette que tu peux adapter à ton besoin :
      http://rastapopoulos.artizanal.info/notes/squelettes/rss-wsws.html

      #squelette #boucle #data #YQL #SPIP3

      • #France
      • #Toulouse
      • #USD
      RastaPopoulos @rastapopoulos CC BY-NC
    • Agnès Maillard @monolecte CC BY-NC-SA 14/04/2012 14:58

      Whouhaou, impressionnée je suis... et ça marche !

      Tu devrais aussi partager sur Spip-contrib...

      Agnès Maillard @monolecte CC BY-NC-SA
    • Suske @suske CC BY 14/04/2012 16:30

      Ah ben je l’avais proposé avant de te lire (le partage sur contrib)... Mais oui, c’est une bonne idée, d’autant que ça te permettra de voir que si le rss est fonctionnel en l’état, il pourrait être cassé dans plusieurs cas de figure (le code produit sur ce site n’est vraiment pas propre). C’est dans ma todo (documenter est un job parfois assez fastidieux).

      Suske @suske CC BY
    • RastaPopoulos @rastapopoulos CC BY-NC 16/02/2013 16:53

      Et voilà, c’était pas si compliqué, j’ai mis à jour le squelette (toujours au même endroit donc les URLs ci-dessus).

      J’ai juste changé l’URL de base qui est « /fr/ » maintenant, et changé « News/ » par « articles/ » dans le test de l’URL pour trouver la date.

      RastaPopoulos @rastapopoulos CC BY-NC
    • Agnès Maillard @monolecte CC BY-NC-SA 16/02/2013 17:00

      J’ajoute ma contrib : ►http://www.feed43.com/1863156282864312.xml
      modifiable là : ►http://www.feed43.com/feed.html?name=1863156282864312

      Agnès Maillard @monolecte CC BY-NC-SA
    • Agnès Maillard @monolecte CC BY-NC-SA 16/02/2013 17:04

      Y avait ça, aussi, je le garde en mémoire : http://www.rsspect.com
      #RSS

      Agnès Maillard @monolecte CC BY-NC-SA
    Écrire un commentaire

thèmes

  • #fb
  • #tw

  • Company: Yahoo
thématisation automatique par OpenCalais
À propos de Seenthis Propriété intellectuelle Recommandations API