Pour conserver la mémoire du web, Internet Archive durcit ses méthodes - Tech

/252324-pour-conserver-la-memoire-du-web

  • Pour conserver la mémoire du web, Internet Archive durcit ses méthodes
    par Julien Lausson pour numerama le 25 avril 2017
    https://www.numerama.com/tech/252324-pour-conserver-la-memoire-du-web-internet-archive-durcit-ses-method

    Depuis plus de vingt ans maintenant, la fondation américaine Internet Archive poursuit une mission démesurée : explorer et mémoriser le web afin de « permettre à tous d’accéder au savoir, gratuitement et pour toujours ». Ainsi, chaque semaine, elle enregistre 300 millions de nouvelles pages dans sa base de données, de façon à ce que chacun puisse les consulter ultérieurement.

    Mais pour la fondation américaine, il y a un problème. Et ce souci s’appelle robots.txt. « Les fichiers robots.txt ont été inventés il y a plus de 20 ans afin d’aider les ‘robots’, surtout ceux des moteurs de recherche, à savoir quelles sont les sections d’un site web qui devraient être explorées et indexées pour la recherche », explique Internet Archive. Or, ce petit fichier baptisé robots.txt entrave le bon fonctionnement de son projet.

    Pour Internet Archive, la question d’un changement complet de philosophie se pose. L’archivage du web ne doit plus se faire en tenant compte des déclarations des fichiers robots.txt qui s’adressent avant tout aux moteurs de recherche. Il doit se faire en prenant en compte le point de vue de l’utilisateur, de façon à lui montrer le web tel qu’il est aujourd’hui. Et tel qu’il était autrefois.

    #WWW #Web #Tech #mémoire #archivage #référencement https://archive.org

    • Les archives de l’Internet accusées de diffusion pirate par des auteurs
      par Antoine Oury pour actualitte le 29 janvier 2018

      Archive.org, l’Internet Archive, est sans aucun doute l’un des sites les plus précieux d’internet : pour les chercheurs dans de nombreux domaines, il est carrément incontournable. Depuis les années 1990, cette plateforme archive les pages web, mais rassemble aussi les collections numérisées de plusieurs bibliothèques, surtout américaines. L’Open Library, un site satellite qui propose des livres numériques sous droit, souvent indisponibles, en prêt, est désormais attaquée par des auteurs qui lui reprochent une diffusion pirate de livres numériques.

      Néanmoins, la plateforme a donné son point de vue à travers un texte signé par Brewster Kahle, un des fondateurs de l’Open Library. Dans ce post https://blog.archive.org/2018/01/24/digital-books-on-archive-org, Kahle explique qu’une grande partie des ouvrages des bibliothèques, qui participent activement à l’Open Library, datent d’avant 1923, ce qui signifie qu’ils sont dans le domaine public. Pour le reste, certains ouvrages sont présents à des fins d’accessibilités, numérisés et traités par le consortium Daisy pour les publics empêchés de lire. Certes, quelques ouvrages publiés entre 1923 et 1961 sont aussi présents dans l’Open Library, mais cela ferait suite à une autorisation spéciale qui s’appliquerait aux livres indisponibles.

      Pour le reste, Kahle assure de la bonne volonté de l’Open Library, et confirme qu’il est possible de faire retirer un titre contrevenant avec un simple message. Sauf que la page d’accueil de l’Open Library fait bel et bien apparaitre des titres visiblement encore sous droits...

      En somme, la vie juridiquement très mouvementée de l’Internet Archive et de l’Open Library risque encore de connaître quelques soubresauts... Certes, Internet Archive est reconnu comme une bibliothèque par certaines juridictions aux États-Unis et pourrait peut-être prétendre au fair use, cette exception au copyright à des fins d’éducation et de préservation du patrimoine, mais rien n’est moins sûr.

      https://www.actualitte.com/article/patrimoine-education/les-archives-de-l-internet-accusees-de-diffusion-pirate-par-des-auteurs/87020

      #Patrimoine #éducation #archivage vs #piratage #open_librairie #Fair_Use https://archive.org