http://rastapopoulos.artizanal.info/notes/squelettes

Monolecte 😷🤬 CC BY-NC-SA 12/04/2012

Coup de main
Vous connaissez un moyen de créer un flux RSS pour une page qui n’en génère pas ?
#fb #tw

#Yahoo

Monolecte 😷🤬 CC BY-NC-SA

RastaPopoulos @rastapopoulos CC BY-NC 12/04/2012

J’en connais qui ont fait ça avec #SPIP 3 et les #Itérateurs : un squelette qui utilise le service web de Yahoo #YQL et qui va chercher le contenu HTML d’une page et le retransforme en flux #RSS ou #Atom.
Je crois que @suske a fait ça, non ?
#spip-3

RastaPopoulos @rastapopoulos CC BY-NC
Suske @suske 12/04/2012

ouep, on peut faire ça avec #SPIP et les #itérateurs, comme @rastapopoulos a dit. Il faut juste que la page soit un minimum structurée et bien balisée, forcément. Puis bon, ça demande un peu de chipot mais c’est faisable et bien pratique. Donne une url @monolecte...

Suske @suske
bohwaz @bohwaz ART LIBRE 12/04/2012

Encore plus simple : ►http://fivefilters.org/content-only

bohwaz @bohwaz ART LIBRE
Monolecte 😷🤬 @monolecte CC BY-NC-SA 12/04/2012

L’URL que je veux veiller : ►http://www.wsws.org/francais
C’est fait avec les pieds mais j’aimerais être au courant chaque fois que ce site sort un nouvel article en français.

Monolecte 😷🤬 @monolecte CC BY-NC-SA
Suske @suske 12/04/2012

Ouééééé, avec des vrais morceaux de table inside et des font size="2" face="Arial" color="#003366" comme on en fait plus ;-)
Je regarde ça ce week-end.

Suske @suske
RastaPopoulos @rastapopoulos CC BY-NC 13/04/2012

Ce qui est super compliqué c’est que le HTML n’est même pas valide et ya carrément des manques d’imbrications de plusieurs balises (mal ou pas fermées).
YQL passe le résultat par HTML Tidy qui reformate tout du mieux qu’il peut, donc c’est sur ce résultat re-formaté qu’on fait la recherche (et non pas sur ce que montre Firebug quand on visualise la page, car lui aussi reformate mais pas forcément pareil que Tidy).
Premiers éléments, avec cette requête (faut tout copier, Seenthis ne reconnait pas bien l’URL) tu as uniquement les paragraphes centraux qui sont soit des dates (ceux avec « font » dedans) soit des articles (ceux avec « a » dedans) :
http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsw
Ensuite faut boucler dessus et construire le XML du flux RSS :
– quand on tombe sur une date, la transformer en vraie date informatique et la mettre en mémoire pour l’assigner aux liens qui suivent
– quand on tombe sur des liens, utiliser la dernière date trouvée comme date de l’article

RastaPopoulos @rastapopoulos CC BY-NC
Suske @suske 13/04/2012

Ouhlà, ça va être compliqué. Ce site c’est du fait main pas w3c compliant (du tout) et là ils ont ajouté un pavé (dans la mare) qui casse déjà la requête de RastaPopoulos...

Suske @suske
RastaPopoulos @rastapopoulos CC BY-NC 14/04/2012

Une requête plus résistante : tous les liens pointant vers un truc en « News/20... » :
http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsw

RastaPopoulos @rastapopoulos CC BY-NC
RastaPopoulos @rastapopoulos CC BY-NC 14/04/2012

Et voilà chère amie :
►http://rastapopoulos.artizanal.info/notes/spip.php?page=rss-wsws
Et le squelette que tu peux adapter à ton besoin :
►http://rastapopoulos.artizanal.info/notes/squelettes/rss-wsws.html
#squelette #boucle #data #YQL #SPIP3

RastaPopoulos @rastapopoulos CC BY-NC
Monolecte 😷🤬 @monolecte CC BY-NC-SA 14/04/2012

Whouhaou, impressionnée je suis... et ça marche !
Tu devrais aussi partager sur Spip-contrib...

Monolecte 😷🤬 @monolecte CC BY-NC-SA
Suske @suske 14/04/2012

Ah ben je l’avais proposé avant de te lire (le partage sur contrib)... Mais oui, c’est une bonne idée, d’autant que ça te permettra de voir que si le rss est fonctionnel en l’état, il pourrait être cassé dans plusieurs cas de figure (le code produit sur ce site n’est vraiment pas propre). C’est dans ma todo (documenter est un job parfois assez fastidieux).

Suske @suske
RastaPopoulos @rastapopoulos CC BY-NC 16/02/2013

Et voilà, c’était pas si compliqué, j’ai mis à jour le squelette (toujours au même endroit donc les URLs ci-dessus).
J’ai juste changé l’URL de base qui est « /fr/ » maintenant, et changé « News/ » par « articles/ » dans le test de l’URL pour trouver la date.

RastaPopoulos @rastapopoulos CC BY-NC
Monolecte 😷🤬 @monolecte CC BY-NC-SA 16/02/2013

J’ajoute ma contrib : ►http://www.feed43.com/1863156282864312.xml
modifiable là : ►http://www.feed43.com/feed.html?name=1863156282864312

Monolecte 😷🤬 @monolecte CC BY-NC-SA
Monolecte 😷🤬 @monolecte CC BY-NC-SA 16/02/2013

Y avait ça, aussi, je le garde en mémoire : ▻http://www.rsspect.com
#RSS

Monolecte 😷🤬 @monolecte CC BY-NC-SA
RastaPopoulos @rastapopoulos CC BY-NC 21/01/2016

Hey, mon code fonctionne toujours pour WSWS, la classe. :)

RastaPopoulos @rastapopoulos CC BY-NC
Fil @fil 21/01/2016

#classe #merci

Fil @fil

Écrire un commentaire