The Easy Way To Watch And Download Videos

#message915673

  • je continue la reflexion de : https://seenthis.net/messages/915670#message915673

    Est-ce qu’il n’y aurait pas moyen d’automatiser/faciliter l’archivage de ses messages et/ou de son réseau sur #seenthis ?

    – De soumettre automatiquement les liens des messages et commentaire sur http://web.archive.org, et carrément pourquoi pas faire une passe régulièrement sur les anciens messages et ajouter le lien archivé à la bonne date à côté des liens morts

    – De proposer une page qui fournit tous les liens externes, idéalement classés par type (vidéos, images, pages, message de réseaux sociaux), pour pouvoir utiliser des sites/scripts pour archiver

    – De fournir une fonction d’export des messages du réseau, pour ne pas perdre tous les messages étoilés d’une personne qui ferme son compte

    Bref en gros si seenthis est utilisé comme portail de veille sur le web, de donner des outils pour archiver sa veille

    #archivage_militant

    @fil @arno @biggrizzly @rastapopoulos et autres que j’oublie

    • Chaque compte produit des flux au format Atom donc très normalisé, et il y a donc déjà moyen d’écrire des scripts pour archiver tout cela au fur et à mesure. Mais c’est pas du tout cuit oui… faut coder encore pas mal.

      Pour les comptes supprimés, une fois lancé la procédure c’est trop tard, mais en amont (mais comment le savoir à temps) tu peux déjà récupérer en Atom donc. Mais il y a plein de choses à faire mieux pour ce cas des suppressions, cf ce ticket : https://github.com/seenthis/seenthis_squelettes/issues/158#issuecomment-513448098
      Faut peut-être ne jamais pouvoir faire le 4ème choix, et que ça s’arrête au 3ème (ça me choquerait pas, vu que le compte serait bien supprimé et plus rien de personnel ne resterait).

    • Bon ça doit pouvoir se faire. J’ai cradouillé un petit script python pour télécharger les urls externes d’un compte. Le plus élégant serait de plugger ça à archivebox pour pas réinventer le roue, mais ça refuse de s’installer correctement sur mon windows.

      Sinon, à partir de la liste des urls, virer les 404, gérer les 301, les passer par https://noembed.com ou récupérer le content-type pour aiguiller sur la bonne façon de sauvegarder le contenu (#youtube-dl pour les médias de type vidéo renvoyés par noembed, wget sur la vraie image d’une ressource de type photo, une récupération particulière pour une page web histoire d’avoir le même affichage tout comme il faut + une conversion PDF, etc)

      Après comment organiser ça pour récupérer facilement les ressources sauvegardées ? (archivebox gère tout ce côté avec un serveur web des pages sauvegardées)