je continue la reflexion de :

Nicolas🌱 CC BY-SA 16/05/2021

je continue la reflexion de : ▻https://seenthis.net/messages/915670#message915673

Est-ce qu’il n’y aurait pas moyen d’automatiser/faciliter l’archivage de ses messages et/ou de son réseau sur #seenthis ?

– De soumettre automatiquement les liens des messages et commentaire sur ►http://web.archive.org, et carrément pourquoi pas faire une passe régulièrement sur les anciens messages et ajouter le lien archivé à la bonne date à côté des liens morts

– De proposer une page qui fournit tous les liens externes, idéalement classés par type (vidéos, images, pages, message de réseaux sociaux), pour pouvoir utiliser des sites/scripts pour archiver

– De fournir une fonction d’export des messages du réseau, pour ne pas perdre tous les messages étoilés d’une personne qui ferme son compte

Bref en gros si seenthis est utilisé comme portail de veille sur le web, de donner des outils pour archiver sa veille

#archivage_militant

@fil @arno @biggrizzly @rastapopoulos et autres que j’oublie

Nicolas🌱 CC BY-SA

RastaPopoulos @rastapopoulos CC BY-NC 16/05/2021

Chaque compte produit des flux au format Atom donc très normalisé, et il y a donc déjà moyen d’écrire des scripts pour archiver tout cela au fur et à mesure. Mais c’est pas du tout cuit oui… faut coder encore pas mal.
Pour les comptes supprimés, une fois lancé la procédure c’est trop tard, mais en amont (mais comment le savoir à temps) tu peux déjà récupérer en Atom donc. Mais il y a plein de choses à faire mieux pour ce cas des suppressions, cf ce ticket : ▻https://github.com/seenthis/seenthis_squelettes/issues/158#issuecomment-513448098
Faut peut-être ne jamais pouvoir faire le 4ème choix, et que ça s’arrête au 3ème (ça me choquerait pas, vu que le compte serait bien supprimé et plus rien de personnel ne resterait).

RastaPopoulos @rastapopoulos CC BY-NC
Nicolas🌱 @nicolasm CC BY-SA 16/05/2021

Ah oui j’avais pas fait gaffe aux <link rel="related"> du fil RSS, très pratique

Nicolas🌱 @nicolasm CC BY-SA
Nicolas🌱 @nicolasm CC BY-SA 17/05/2021

Bon ça doit pouvoir se faire. J’ai cradouillé un petit script python pour télécharger les urls externes d’un compte. Le plus élégant serait de plugger ça à archivebox pour pas réinventer le roue, mais ça refuse de s’installer correctement sur mon windows.
Sinon, à partir de la liste des urls, virer les 404, gérer les 301, les passer par ►https://noembed.com ou récupérer le content-type pour aiguiller sur la bonne façon de sauvegarder le contenu (#youtube-dl pour les médias de type vidéo renvoyés par noembed, wget sur la vraie image d’une ressource de type photo, une récupération particulière pour une page web histoire d’avoir le même affichage tout comme il faut + une conversion PDF, etc)
Après comment organiser ça pour récupérer facilement les ressources sauvegardées ? (archivebox gère tout ce côté avec un serveur web des pages sauvegardées)

Nicolas🌱 @nicolasm CC BY-SA

Écrire un commentaire