Pour conserver la mémoire du web, Internet Archive durcit ses méthodes
par Julien Lausson pour numerama le 25 avril 2017
▻https://www.numerama.com/tech/252324-pour-conserver-la-memoire-du-web-internet-archive-durcit-ses-method
Depuis plus de vingt ans maintenant, la fondation américaine Internet Archive poursuit une mission démesurée : explorer et mémoriser le web afin de « permettre à tous d’accéder au savoir, gratuitement et pour toujours ». Ainsi, chaque semaine, elle enregistre 300 millions de nouvelles pages dans sa base de données, de façon à ce que chacun puisse les consulter ultérieurement.
Mais pour la fondation américaine, il y a un problème. Et ce souci s’appelle robots.txt. « Les fichiers robots.txt ont été inventés il y a plus de 20 ans afin d’aider les ‘robots’, surtout ceux des moteurs de recherche, à savoir quelles sont les sections d’un site web qui devraient être explorées et indexées pour la recherche », explique Internet Archive. Or, ce petit fichier baptisé robots.txt entrave le bon fonctionnement de son projet.
Pour Internet Archive, la question d’un changement complet de philosophie se pose. L’archivage du web ne doit plus se faire en tenant compte des déclarations des fichiers robots.txt qui s’adressent avant tout aux moteurs de recherche. Il doit se faire en prenant en compte le point de vue de l’utilisateur, de façon à lui montrer le web tel qu’il est aujourd’hui. Et tel qu’il était autrefois.
#WWW #Web #Tech #mémoire #archivage #référencement ►https://archive.org