Ce qui est super compliqué c’est que le HTML n’est même pas valide et ya carrément des manques d’imbrications de plusieurs balises (mal ou pas fermées).
YQL passe le résultat par HTML Tidy qui reformate tout du mieux qu’il peut, donc c’est sur ce résultat re-formaté qu’on fait la recherche (et non pas sur ce que montre Firebug quand on visualise la page, car lui aussi reformate mais pas forcément pareil que Tidy).
Premiers éléments, avec cette requête (faut tout copier, Seenthis ne reconnait pas bien l’URL) tu as uniquement les paragraphes centraux qui sont soit des dates (ceux avec « font » dedans) soit des articles (ceux avec « a » dedans) :
http://developer.yahoo.com/yql/console/?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.wsw
Ensuite faut boucler dessus et construire le XML du flux RSS :
– quand on tombe sur une date, la transformer en vraie date informatique et la mettre en mémoire pour l’assigner aux liens qui suivent
– quand on tombe sur des liens, utiliser la dernière date trouvée comme date de l’article