Archiver le web à petite échelle

illustration pour la chronique "archivage web"

La question de l’archivage des arts médiatiques est complexe. Les arts cinématographique et vidéo bénéficient d’un réseau d’institutions (notamment à travers la Fédération internationales des archives du film) qui se dédient à leur préservation et qui ont développé des pratiques et des vocabulaires communs. Du côté des arts numériques, les pratiques sont caractérisées par la pluralité et une évolution rapide des appareils, des supports et des formats. Des chantiers pour la préservation des œuvres issues de ces mouvements ont été menés par divers groupes (pensons au Réseau des médias variables, à l’alliance de recherche DOCAM, à ALN/NT2, à Initiative for Indigenous Futures, à Rhizome, V2_Lab for the Unstable Media).

Dans le cadre de cette chronique, j’aborderai la question de l’archivage du web avec une perspective très pratique (DIY). Je vous propose donc un retour d’expérience sur les outils Conifer et ArchiveWeb.page développés par Rhizome (organisme newyorkais œuvrant pour la valorisation et la préservation de l’art web) et Webrecorder. Artistes et organismes artistiques peuvent utiliser ces outils pour archiver tout type de contenu en ligne : site web officiel, art web, exposition virtuelle, intervention sur les réseaux sociaux, etc.

Archiver Lab à lab

Au CQAM, nous avons procédé à l’archivage du wiki de Lab à lab, le projet initié par le comité arts numériques entre 2013 et 2015. La méthodologie, les valeurs et les idées véhiculées à travers Lab à lab sont toujours d’actualité en 2021 et, même si nous souhaitions mettre fin à l’hébergement du site sur internet, il était important pour nous de conserver une archive conséquente du projet.

Pour ce faire, nous avons testé Conifer, un outil permettant une capture interactive des pages web dans le format standard ISO WARC. Ce type d’archive offre l’avantage de préserver le style et les interactions intégrées dans les pages web et d’offrir à la personne qui la consulte une expérience proche de l’originale. L’archive web en format WARC peut être visionnée en ligne, via le service d’hébergement de Conifer (les comptes gratuits bénéficient actuellement de 5G d’espace d’entreposage) ou encore par le biais d’applications web (telles que Replay.Web). Enfin, l’outil de capture peut rouler à distance sur des navigateurs anciens. Ce dernier point est fort utile pour préserver des pages web comprenant des composantes technologiques qui ne sont plus supportées par les navigateurs actuels (par exemple, Flash).

Première expérience d’archivage du web

Lectures préliminaires

Avant de me lancer dans l’archivage du site web Labàlab, j’ai d’abord consulté le guide d’utilisation de Conifer (en anglais) dans son entièreté. Cela m’a permis de comprendre le champ d’application et les limites de l’outil, son interface ainsi que ses quelques fonctionnalités.

Dans un deuxième temps, j’ai eu la chance de consulter le tout nouveau guide en une page sur le sujet préparé par Hélène Brousseau, bibliothécaire responsable des systèmes et de la collection numérique chez Artexte. Ce guide, accessible dans la boîte à outils d’Artexte, présente un ensemble de questions et d’enjeux à considérer dans la planification d’une session d’archivage web.

Test 1 : création d’un compte Conifer

Une fois outillée et prête à débuter, j’ai créé un compte Conifer gratuit pour le CQAM. J’ai pu déjà effectuer quelques tests de capture afin de me familiariser avec l’outil.

Ces premiers tests m’ont rapidement révélé un problème, qu’une relecture du guide Conifer m’a permis d’identifier. L’application web Conifer fonctionne à partir de serveurs localisés aux États-Unis et cet état de fait a entraîné des problèmes dans la capture et l’affichage de plusieurs pages web du site Labàlab (par exemple : http://labalab.ca/À+propos+de+LabàLab). Si mon hypothèse est bonne, c’est la présence de caractères accentués dans plusieurs URLs du site web qui donnait du fil à retordre à l’outil. Pour remédier au problème de la localisation des serveurs de Conifer, le guide suggère l’utilisation d’une application locale, ArchiveWeb.page Desktop app, nous permettant de réaliser nos captures à partir de notre propre localisation.

Test 2 : téléchargement de l’application ArchiveWeb.page

J’ai donc téléchargé la dite application, consulté le guide d’utilisation (les fonctionnalités sont très similaires à Conifer car les deux outils partagent un ancêtre commun : Webrecorder) et procédé à une deuxième série de tests, qui se sont heureusement révélés concluants! L’application locale, fonctionnant à partir de mon propre ordinateur et de mon propre réseau internet, a pu capturer sans problème les pages web identifiées par des URLs comprenant des caractères accentués.

Planification

Outillée du guide d’Artexte, j’ai ensuite planifié mes sessions de capture en fonction des contenus que nous souhaitions préserver. Labàlab étant un site web avec peu de pages, nous avons pris le parti de toutes les archiver. Nous aurions toutefois pu sélectionner quelques sections plus significatives ou au contraire, suivre les hyperliens pointant vers des ressources externes pour les archiver également. Une définition claire des frontières de notre archive a été utile pour planifier les sessions de captures et procéder à la vérification et aux ajustements nécessaires pour atteindre notre objectif.

Création de la collection et sessions de capture

J’ai créé la collection « Projet Lab à Lab (2013-2015) » dans mon outil de capture et j’y ai associé toutes mes sessions de capture subséquentes. Je recommande de procéder de manière systématique pour les captures, en y allant section par section et page par page au sein de chacune de ces sections. Notons que pour capter un contenu audiovisuel, par exemple une vidéo, il faudra laisser jouer le dit contenu sur toute sa longueur, ce qui peut demander un investissement en temps considérable. Le travail de capture est de toute évidence quelque peu répétitif (méditatif?) et demande une bonne dose de patience. Un niveau de concentration raisonnable aide aussi à garder le fil.

Vérification et corrections

Lorsque les sessions de capture sont complétées, il est bon de visualiser l’ensemble de la collection afin de s’assurer que tous les morceaux souhaités s’y trouvent. Dans mon cas, plusieurs pages manquaient à l’appel. Je ne saurais dire si c’est l’outil qui a eu des ratés lors de mes sessions de capture ou si c’est moi qui suis passée trop rapidement sur certaines pages, sans laisser le temps à l’outil de saisir l’ensemble des éléments qui la compose.

Une fois les pages (ou éléments) manquantes identifiées, j’ai procédé à quelques sessions de captures ciblées. Il est possible de capturer une page à la fois et de vérifier dans la collection, avec l’outil de recherche, si l’URL y correspondant s’y trouve bien. J’ai mis fin à mes sessions de captures quand l’ensemble des pages à archiver étaient repérables dans ma collection.

Téléversement sur Conifer

Comme notre intention était de conserver une archive publique de Labàlab, nous avons fait le choix, pour l’instant du moins, de l’héberger sur Conifer. Puisque j’ai utilisé une application locale pour produire l’archive, j’ai dû la télécharger en format WARC sur mon ordinateur, puis téléverser le fichier dans la collection éponyme sur le compte Conifer du CQAM. Dans tous les cas, il est aussi recommandé de conserver dans vos archives une copie du fichier WARC, que ce soit sur votre ordinateur, un disque dur externe et/ou un système d’archivage infonuagique.

Organisation

Par défaut, Conifer tente de repérer les URLs qui correspondent à des pages web parmi tous les éléments capturés. Ce travail d’indexation automatique est consigné dans une liste de lecture intitulée « Pages detected ». Les listes de lecture forment différents points d’accès aux pages web archivées. Vous êtes libres d’organiser votre archive avec une, plusieurs ou aucune liste. Si vous ne préparez aucune liste, les personnes qui souhaitent consulter votre collection pourront naviguer directement dans l’ensemble des ressources qu’elle comprend. Pour la collection Lab à lab, nous avons préparé quelques listes qui correspondent aux grandes sections du menu du site web.

Enfin, vous pouvez éditer le titre de votre collection et sa description afin de contextualiser l’archive que vous avez constituée.

Publication

La dernière étape, si telle est votre intention, est de rendre publique votre collection et d’en partager l’URL! Vous retrouverez l’archive de Lab à lab à cette adresse : https://conifer.rhizome.org/CQAM/projet-lab-à-lab-2013-2015

Verdict

Conifer et ArchiveWeb.page sont deux outils, qui, bien qu’imparfaits et ayant quelques limites, répondent avec une certaine simplicité à un enjeu d’importance pour le milieu des arts. La facilité avec laquelle ils permettent aux artistes et aux petits organismes de préserver des pages web dans toute leur complexité (et dans un format standardisé) est à mon avis assez remarquable. Il existe d’autres logiciels et d’autres méthodes pour archiver le web, mais ces deux options sont sans doute les plus accessibles pour notre milieu.

Si vous souhaitez discuter davantage d’archivage du web, contactez-moi 🙂

À bientôt,

Isabelle L’Heureux