ouep, on peut faire ça avec #SPIP et les #itérateurs, comme @rastapopoulos a dit. Il faut juste que la page soit un minimum structurée et bien balisée, forcément. Puis bon, ça demande un peu de chipot mais c’est faisable et bien pratique. Donne une url @monolecte...
Encore plus simple : ►http://fivefilters.org/content-only
L’URL que je veux veiller : ►http://www.wsws.org/francais
C’est fait avec les pieds mais j’aimerais être au courant chaque fois que ce site sort un nouvel article en français.
Ouééééé, avec des vrais morceaux de table inside et des font size="2" face="Arial" color="#003366" comme on en fait plus ;-)
Je regarde ça ce week-end.
Ce qui est super compliqué c’est que le HTML n’est même pas valide et ya carrément des manques d’imbrications de plusieurs balises (mal ou pas fermées).
YQL passe le résultat par HTML Tidy qui reformate tout du mieux qu’il peut, donc c’est sur ce résultat re-formaté qu’on fait la recherche (et non pas sur ce que montre Firebug quand on visualise la page, car lui aussi reformate mais pas forcément pareil que Tidy).
Premiers éléments, avec cette requête (faut tout copier, Seenthis ne reconnait pas bien l’URL) tu as uniquement les paragraphes centraux qui sont soit des dates (ceux avec « font » dedans) soit des articles (ceux avec « a » dedans) :
http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsw
Ensuite faut boucler dessus et construire le XML du flux RSS :
– quand on tombe sur une date, la transformer en vraie date informatique et la mettre en mémoire pour l’assigner aux liens qui suivent
– quand on tombe sur des liens, utiliser la dernière date trouvée comme date de l’article
Ouhlà, ça va être compliqué. Ce site c’est du fait main pas w3c compliant (du tout) et là ils ont ajouté un pavé (dans la mare) qui casse déjà la requête de RastaPopoulos...
Une requête plus résistante : tous les liens pointant vers un truc en « News/20... » :
http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsw
Et voilà chère amie :
►http://rastapopoulos.artizanal.info/notes/spip.php?page=rss-wsws
Et le squelette que tu peux adapter à ton besoin :
►http://rastapopoulos.artizanal.info/notes/squelettes/rss-wsws.html
Whouhaou, impressionnée je suis... et ça marche !
Tu devrais aussi partager sur Spip-contrib...
Ah ben je l’avais proposé avant de te lire (le partage sur contrib)... Mais oui, c’est une bonne idée, d’autant que ça te permettra de voir que si le rss est fonctionnel en l’état, il pourrait être cassé dans plusieurs cas de figure (le code produit sur ce site n’est vraiment pas propre). C’est dans ma todo (documenter est un job parfois assez fastidieux).
Et voilà, c’était pas si compliqué, j’ai mis à jour le squelette (toujours au même endroit donc les URLs ci-dessus).
J’ai juste changé l’URL de base qui est « /fr/ » maintenant, et changé « News/ » par « articles/ » dans le test de l’URL pour trouver la date.
J’ajoute ma contrib : ►http://www.feed43.com/1863156282864312.xml
modifiable là : ►http://www.feed43.com/feed.html?name=1863156282864312
Y avait ça, aussi, je le garde en mémoire : ▻http://www.rsspect.com
#RSS
Hey, mon code fonctionne toujours pour WSWS, la classe. :)