NicolasđŸŒ±

Projet de vie en #permaculture dans le Sud Ouest

  • je continue la reflexion de : ▻https://seenthis.net/messages/915670#message915673

    Est-ce qu’il n’y aurait pas moyen d’automatiser/faciliter l’archivage de ses messages et/ou de son rĂ©seau sur #seenthis ?

    – De soumettre automatiquement les liens des messages et commentaire sur â–șhttp://web.archive.org, et carrĂ©ment pourquoi pas faire une passe rĂ©guliĂšrement sur les anciens messages et ajouter le lien archivĂ© Ă  la bonne date Ă  cĂŽtĂ© des liens morts

    – De proposer une page qui fournit tous les liens externes, idĂ©alement classĂ©s par type (vidĂ©os, images, pages, message de rĂ©seaux sociaux), pour pouvoir utiliser des sites/scripts pour archiver

    – De fournir une fonction d’export des messages du rĂ©seau, pour ne pas perdre tous les messages Ă©toilĂ©s d’une personne qui ferme son compte

    Bref en gros si seenthis est utilisé comme portail de veille sur le web, de donner des outils pour archiver sa veille

    #archivage_militant

    @fil @arno @biggrizzly @rastapopoulos et autres que j’oublie

    • Chaque compte produit des flux au format Atom donc trĂšs normalisĂ©, et il y a donc dĂ©jĂ  moyen d’écrire des scripts pour archiver tout cela au fur et Ă  mesure. Mais c’est pas du tout cuit oui
 faut coder encore pas mal.

      Pour les comptes supprimĂ©s, une fois lancĂ© la procĂ©dure c’est trop tard, mais en amont (mais comment le savoir Ă  temps) tu peux dĂ©jĂ  rĂ©cupĂ©rer en Atom donc. Mais il y a plein de choses Ă  faire mieux pour ce cas des suppressions, cf ce ticket : ▻https://github.com/seenthis/seenthis_squelettes/issues/158#issuecomment-513448098
      Faut peut-ĂȘtre ne jamais pouvoir faire le 4Ăšme choix, et que ça s’arrĂȘte au 3Ăšme (ça me choquerait pas, vu que le compte serait bien supprimĂ© et plus rien de personnel ne resterait).

    • Bon ça doit pouvoir se faire. J’ai cradouillĂ© un petit script python pour tĂ©lĂ©charger les urls externes d’un compte. Le plus Ă©lĂ©gant serait de plugger ça Ă  archivebox pour pas rĂ©inventer le roue, mais ça refuse de s’installer correctement sur mon windows.

      Sinon, Ă  partir de la liste des urls, virer les 404, gĂ©rer les 301, les passer par â–șhttps://noembed.com ou rĂ©cupĂ©rer le content-type pour aiguiller sur la bonne façon de sauvegarder le contenu (#youtube-dl pour les mĂ©dias de type vidĂ©o renvoyĂ©s par noembed, wget sur la vraie image d’une ressource de type photo, une rĂ©cupĂ©ration particuliĂšre pour une page web histoire d’avoir le mĂȘme affichage tout comme il faut + une conversion PDF, etc)

      AprĂšs comment organiser ça pour rĂ©cupĂ©rer facilement les ressources sauvegardĂ©es ? (archivebox gĂšre tout ce cĂŽtĂ© avec un serveur web des pages sauvegardĂ©es)