20 ans d’archives de l’internet français,
Il était une fois dans le web

Publié le 15 Novembre 2016
A l'occasion des 20 ans de l'archivage du web, la Bibliothèque nationale de France (BnF) et l'Institut national de l'Audiovisuel (Ina) organisent, les 22 et 23 novembre prochains, deux journées professionnelles consacrées aux évolutions de l'archivage du web et à la reconnaissance du patrimoine numérique.

Depuis la loi DADVSI (Droit d'auteur et droits voisins dans la société de l'information) en 2006, la BnF et l'Ina ont pour mission de collecter, conserver et communiquer les sites internet du domaine français au titre du dépôt légal.

A la BnF, celui-ci concerne tous types de publications : sites institutionnels ou personnels, journaux en accès gratuit ou payant, blogs, sites commerciaux, plateformes de vidéos ou de livres numériques, ou encore réseaux sociaux. La BnF est en effet chargée de réaliser un instantané du domaine national - qui inclut les sites en .fr ou dotés d'une extension régionale (.bzh par exemple), ainsi que les sites dotés d'une extension générique (.com par exemple) dès lors qu'ils sont enregistrés en France ou produits avec des moyens français. Les collections de dépôt légal du web sont, à l'image de la Bibliothèque, à vocation encyclopédique. Ainsi, ce ne sont pas moins de 4,5 millions de domaines qui sont moissonnés chaque année ! Certains contenus en outre font l'objet d'un moissonnage particulier : actualités capturées quotidiennement, réactions à un événement collectées en temps réel sur les réseaux sociaux...

L'Ina, dans la continuité de ses collections audiovisuelles, collecte et conserve les sites relevant du domaine de la communication audiovisuelle. Plus de 14 000 sites web et 18 000 comptes de réseaux sociaux et vidéos et 400 flux de réseaux sociaux sont ainsi actuellement captés au jour le jour et conservés. Ainsi 389 millions de tweets ont d'ores et déjà été captés. Par ailleurs, les robots utilisés par l'Ina permettant une collecte à chaque mise à jour de chacun des sites web, le volume d'archives du web conservé atteint déjà 3,95 Po.

« Les archives ont changé de visage avec les usages : la BnF se devait, pour assumer pleinement sa mission de collecte, de préservation et de diffusion du patrimoine numérique français, d'en saisir toutes les dimensions. Elle a ainsi été pionnière dans l'archivage du web et poursuit depuis 20 ans cet objectif essentiel à la préservation de notre mémoire collective, en en épousant toutes les formes, jusqu'aux plus volatiles. Des sites institutionnels aux réseaux sociaux, le format internet de la production d'archives est depuis, chaque jour, préservé. Avec plus de 780 teraoctets stockés et plus de 28 milliards de fichiers accessibles grâce à des outils de recherche toujours plus innovants, la BnF contribue à faire des archives le miroir pertinent de notre société et veille à en faire, pour aujourd'hui et demain, la matière d'une recherche indispensable à sa compréhension. » a déclaré Laurence Engel, Présidente de la BnF.

« L'Ina conserve un pan entier de la mémoire du web – déjà plus de 50 milliards de pages ! – mission patrimoniale qu'il remplit avec fierté depuis 2011 et dont il souhaite qu'elle permette, de façon croissante, d'accompagner des recherches novatrices destinées à mieux comprendre notre culture médiatique en mutation et son nouvel écosystème digital. En mettant ses collections au cœur des travaux des chercheurs, l'Ina réinvente, jour après jour, le rôle et la place des archives à l'âge de l'accès et des nouveaux usages numériques qu'induit, notamment, l'essor des médias sociaux » déclare Laurent Vallet, Président-directeur général de l'Ina.

Les conditions de consultation

Les collections de dépôt légal du web sont consultables sur accréditation, au même titre que les autres collections de dépôt légal, dans les salles de recherche de la BnF, ainsi que dans des bibliothèques en région. Le principal outil de recherche est une « machine à remonter le temps » dérivée de la Wayback Machine d’Internet Archive, proposée sous le nom d’ « Archives de l’internet ». En cherchant par URL par exemple, on peut accéder à un site internet tel qu’il était à une date donnée, retracer son évolution dans le temps et le comparer, s’il existe toujours en ligne, avec sa version contemporaine. Afin d’aider les lecteurs à s’orienter dans les collections, des sélections de sites archivés, organisées en « Parcours guidés » sont mises à disposition. Enfin, les équipes de recherche peuvent accéder, après signature
d’une convention de partenariat, à des prototypes d’outils, tels que la plateforme « Archives de l’internet Labs ».

Un accès distant sur tout le territoire

L’accès distant aux archives de l’internet est progressivement déployé en région. À ce jour, les sites de consultation sont au nombre de 11 :
• La Médiathèque Toussaintd’Angers
• La Bibliothèque municipale de Bordeaux Mériadeck
• Bibliothèque municipale de Dijon
• La Bibliothèque francophone multimédia de Limoges
• La Bibliothèque municipale de Lyon Part-Dieu
• La Médiathèque Emile Zola de Montpellier Méditerranée Métropole
• La Bibliothèque Stanislas de Nancy
• La Bibliothèque nationale et universitaire de Strasbourg
• La Bibliothèque Etudes et patrimoine de Toulouse
• Les Archives départementales de la Guadeloupe
• Les Archives de la Martinique.

Réunir les acteurs du web

Le 22 novembre après-midi sera consacré à des ateliers de découverte des collections, à destination d'un public universitaire et étudiant.
La journée du 23 novembre, animée par le journaliste Thibault Henneton, prendra la forme d'interventions et de tables-rondes qui réuniront des acteurs du web, témoins ou déposants, des chercheurs usagers des archives de l'internet ou spécialistes de domaines en relation (droit appliqué au numérique, méthodes quantitatives et cartographiques) et des praticiens de l'archivage du web.

Programme

Informations et inscriptions sur Eventbrite 
Contactez cette société ou un revendeur de ces produits.
Les 10 derniers articles
Les 10 derniers articles
SQ 250-300
Services
Ingram
Top 10Top 10 du jourTop 10 de la semaineTop 10 du mois
 La vidéo du moment
FlashITRmobilesITRgamesITchannel
Commentaires