gazettes europeennes
gazettes europeennes

Gazettes européennes du 18e siècle

Pour comprendre l’intérêt scientifique de ce projet, il faut, comme le rappelle Pierre Rétat dans la présentation des cédéroms de la Gazette d’Amsterdam, prendre en compte la place de la presse européenne de langue française dans la civilisation d’Ancien Régime. La presse européenne de langue française sous l’Ancien Régime, essentiellement constituée de gazettes, “ se caractérise par sa vitalité, par le nombre […] des journaux créés, par sa très large expansion géographique -jusqu’en Russie ou dans l’empire Ottoman avec une forte concentration en Allemagne et dans les Pays-Bas […] ”. Moyen de diffusion du savoir et des nouvelles “ entre les élites sociales, politiques et intellectuelles […] dans des zones géographiques très vastes et connectées entre elles ”, les gazettes jouent “ un rôle de médiation et d’unification linguistiques et culturelles. On peut les considérer comme un lieu stratégique de création et d’affirmation d’une conscience européenne au début de l’ère moderne, ce qui leur confère un caractère historique très particulier ”. Ces gazettes transmettent “ une information essentiellement politique de caractère international ”. La presse du 18e siècle d’expression française se caractérise par sa dimension européenne : c’est aussi pour concurrencer la Gazette de France, très contrôlée par le pouvoir royal, qui avait un privilège exclusif sur tout le royaume, que de nombreuses entreprises éditoriales ont vu le jour, à Londres, Bruxelles, Rotterdam, La Haye, Leyde, Amsterdam, Utrecht, Clèves, Cologne, Trèves, Berne et Avignon (qui n’était pas française à l’époque)… Cet ensemble offre donc une masse considérable de textes en langue française, diffusés dans toute l’Europe, jusqu’à Moscou et l’Amérique, une ressource précieuse pour les chercheurs, tant historiens que littéraires : politique, histoire des idées, des sciences et des arts, naissance des formes et du discours journalistique… Toute l’histoire du monde y est inscrite presque au jour le jour ; un même événement peut être relaté à travers des nouvelles émanant de divers endroits, on y lit aussi bien le quotidien des grandes villes européennes (et au-delà, jusqu’à Constantinople et Saint Petersbourg), ou des bourgs de province, jusqu’aux colonies, avec la naissance des états d’Amérique, ou à l’Afrique et l’Asie.

Malheureusement, cette richesse en fait la difficulté : il est très rare de pouvoir consulter une collection complète, les exemplaires étant souvent dispersés dans différents pays. Il est donc important de mettre à disposition des chercheurs cet outil précieux qui permet de relier la culture et l’histoire d’une époque avec ses media d’information. Le groupe de Lyon a mené à bien ce travail en publiant sur CD-Rom la collection de la Gazette d’Amsterdam (1691-1796) et poursuivra avec d’autres journaux.

Historique du projet: l’expérience de la Gazette d’Amsterdam, une numérisation en mode image

La première réalisation du laboratoire fut la collection de la Gazette d’Amsterdam qui a été diffusée dans toute l’Europe de 1691 à 1796. Cet ensemble de 12 cédéroms, qui se voulait le premier élément d’un projet plus vaste de collection des gazettes européennes de langue française sous l’Ancien Régime, a été publié en 2000 par la Voltaire Foundation. Notre laboratoire s’est intéressé depuis 1993 à l’édition numérique des gazettes.

Une première demande de financement a été soumise à la fondation Volkswagen, sans résultat positif. C’est en 1994 que le projet a vraiment pu prendre corps, cela grâce à des crédits alloués par le Ministère des affaires étrangères. Pierre Rétat avait découvert dans les réserves du fond ancien de ses archives une belle collection annotée de la Gazette d’Amsterdam. Pascale Ferrand et Pierre Rétat ont alors travaillé à la reconstitution et à l’archivage numérique de cette gazette avec l’appui technique du responsable informatique de l’ISH qui était alors Daniel Roux, actuellement en poste dans l’équipe Histoire de l’Art. Notre budget global était de 200KF, 80 ont été utilisés pour le microfilmage. Pour exploiter le corpus d’une ampleur considérable que constitue une gazette, il fallait d’abord résoudre le difficile problème documentaire qu’elle représente et qui a fait que cette source historique a longtemps été négligée “ non seulement à cause des orientations passées de la science historique, mais aussi à cause de graves difficultés de consultation des collections ”. Celles que l’on trouve sont en effet rares, dispersées, toujours lacunaires et d’un accès difficile. C’est pourquoi, précisément, on souhaitait reconstituer les collections et les reproduire pour en favoriser la consultation. Cependant, cette reproduction se heurtait à l’obstacle majeur que constitue la massivité des corpus. En reproduction papier de type fac simile, il aurait fallu constituer d’énormes collections difficilement publiables. Chaque livraison d’une gazette de type classique comprenant 6 à 8 pages, le total d’une collection, par exemple pour la Gazette d’Amsterdam, représente plus de 80.000 pages. C’est donc la possibilité de reproduire les gazettes sous forme numérique qui a permis de franchir cet obstacle et a suscité l’intérêt des chercheurs désirant avoir à leur disposition un “ reprint électronique ” de la totalité d’une collection de gazette. Cette réalisation s’est faite en trois étapes : une étape de recherche et d’identification de l’archive, une étape de recueil sous forme de microfilms enfin une étape de numérisation et d’organisation des données numériques.

Étape de recherche et d’identification de l’archive

Cette première étape est l’aboutissement du travail du laboratoire sur la presse ancienne entrepris dès les années soixante-dix. Travail dont témoignent les publications de l’équipe 18e et, pour ce qui concerne plus particulièrement le repérage des collections, le Répertoire des gazettes européennes de langue française de Pierre Rétat, publié par la Bibliothèque nationale de France.

Étape de recueil de l’information

Il faut souligner tout d’abord que la numérisation directe des gazettes est impossible, les bibliothèques refusant de soumettre leur fonds anciens à cette opération qui endommage les documents. A partir de 1996, nous avons donc reconstitué la collection complète de la Gazette d’Amsterdam, à partir des microfilms qui nous ont été fournis par huit bibliothèques : Bibliothèque du Ministère des affaires étrangères, Archives nationales, Archivio di Stato, de Naples, Bibliothèque Publique et Universitaire de Genève, Bibliothèque municipale de Grenoble, Bibliothèque de l’Institut de France, Bibliothèque Mazarine, Bibliothèque Sainte-Geneviève. Ces bibliothèques ont bien sûr été choisies en fonction de leurs collections, mais aussi parce qu’elles acceptaient le microfilmage de leurs gazettes et ne nous demandaient pas de copyright, le problème de la négociation des droits demeurant un point délicat.

Étape de numérisation en mode image et de présentation de l’archive

Nous avons fait numériser ces microfilms en format image, ce mode ayant l’avantage de reproduire le document en conservant sa forme originale, élément que tout connaisseur du livre et des textes anciens apprécie. Nous avons choisi comme format logique de numérisation le tiff TCITT Groupe 4 multi pages et comme format de diffusion le pdf. Ce dernier format, tout juste développé à l’époque, présentait l’avantage d’être multi plateformes et d’offrir un viewer libre de droit : Acrobat Reader. Ce choix s’est révélé judicieux puisque ce format s’est généralisé dans les années qui ont suivi. Une fois l’archive numérisée, et la collection reconstituée, nous avons dû contrôler la lisibilité de chaque image et vérifier l’intégrité des livraisons (plus de 11.130). Phase dont il ne faut jamais négliger la durée.

Les trois phases de repérage, d’archivage et de numérisation étant achevées, la question s’est posée de la présentation et donc de l’indexation de cette archive massive. Nous sommes partis du fait qu’elle est naturellement découpée en unités de 6 à 8 pages, constituant une livraison de la gazette, laquelle est repérable par sa date et son numéro d’ordre annuel. Nous avons donc indexé la Gazette d’Amsterdam à partir de ces critères, ce qui donne plus de 11.000 points d’entrée dans le texte. A cette époque nous nous étions posé la question d’une indexation complémentaire. Nous avions écarté d’office l’indexation thématique parce que cette archive numérique était susceptible d’intéresser aussi bien les historiens que les littéraires ou d’autres types de lecteurs, ce qui excluait de dresser un index thématique trop spécifique. Nous avions ensuite écarté une indexation en full text. D’une part parce que les essais d’OCR réalisés à l’époque étaient restés sans succès (90% des caractères étaient rejetés), d’autre part parce que l’utilité d’une telle indexation, rapportée au temps qu’il aurait fallu investir pour constituer un OCR efficace, n’était pas probante. Ce choix d’une réalisation en mode image ne nous est pas propre puisqu’il est aussi celui de la BnF dans son projet d’archivage des journaux publiés entre 1814 et 1944. Notre édition des textes numérisés a cependant une supériorité notable sur celle offerte par Gallica puisqu’elle permet d’accéder directement à la première page d’un numéro du périodique reproduit.

Le projet “Gazette de Leyde”

Notre laboratoire s’est depuis intéressé à un mode de mise à disposition des collections de gazette qui permettrait d’aller au-delà du « reprint électronique » et permettrait de circuler dans le texte grâce à une indexation de termes « sensibles ». – Nous avons écarté l’indexation thématique parce que notre archive numérique était susceptible d’intéresser aussi bien les historiens que les littéraires ou d’autres types de lecteurs, ce qui excluait de dresser un index thématique trop spécifique. – Nous avons ensuite écarté une indexation en full text parce que l’utilité d’une telle indexation, rapportée au temps nécessaire pour la constituer sans OCR efficace sur les textes du XVIIIe siècle, n’est pas probante (la Gazette de Leyde représente entre 324 millions (hypothèse basse) et 428 millions de caractères).

Cela nous a amenés à nous demander si tous les éléments du texte sont une clef d’entrée pour les lecteurs contemporains d’une gazette du XVIIIe siècle. La réponse est « non ». Il s’agit donc pour nous de déterminer quels éléments textuels sont le plus souvent recherchés par les lecteurs qui ne se satisfont pas d’un accès à la gazette par date ou numéro de livraison ? Lorsqu’on examine une gazette, dans un premier temps on constate que le titre de la rubrique , « A Venise, le 17 Février », permet de trouver une nouvelle recherchée. Cependant la lecture des gazettes montre que l’intitulé des nouvelles ne rend pas toujours compte de leur contenu. Ici la nouvelle est celle apportée par un courrier de Rome et concerne cette ville. De même « les nouvelles de Turquie sont susceptibles d’apparaître dans les rubriques Allemagne (article de Vienne) ou Italie (article de Venise) […] les nouvelles d’outre-atlantique [sont] souvent incluses dans les rubriques Grande-Bretagne ou PAYS-BAS ». Les nouvelles de Chine et des côtes asiatiques par exemple « passent aussi bien par Rome […] que par Constantinople via Vienne […] ou bien Madras […] ».

Il faut donc examiner la gazette d’un point de vue purement formel. On constate alors que les italiques abondent dans un texte majoritairement imprimé en romanes. Ces italiques sont toujours utilisées pour noter les noms ou adjectifs de lieu et les patronymes. La possibilité d’entrer dans le texte en interrogeant le mot « Rome » par exemple permet donc d’atteindre aussi bien les nouvelles en provenance de cette contrée que les nouvelles qui y sont relatives. On constate également que les bulletins et les pièces officielles reproduites par la gazette sont donnés en italiques. Mais, dans ce cas les noms ou adjectifs de lieu et les patronymes sont en romains.

Nous aurions donc besoin d’un système qui permettrait d’indexer le texte de la gazette à partir des mots que la gazette elle-même met en valeur : les italiques dans les blocs en romain et, inversement les romains dans les blocs en italiques. Ainsi il serait possible de trouver ou de suivre une nouvelle, en croisant noms propres et date et/ou lieu d’origine de l’information. D’autre part, afin de pouvoir parcourir le texte de la gazette dans la perspective de recherches thématiques nous aurions besoin d’un système de type word spoting. Pour reprendre une thématique sur laquelle nous avons récemment travaillé : l’écriture de la catastrophe au XVIIIe siècle, nous aurions besoin de rechercher par exemple toutes les occurrences d’une série telle que : Catastrophe Désastre Fléaux Tremblement de terre Secousse Peste ….. Nos besoins se situent donc entre ce que propose Gallica et ce que promet Google : entre collection d’images sans indexation et full text. Plus qu’une solution de compromis ce que nous recherchons c’est une solution qui adapterait l’indexation aux spécificités de l’objet indexé et de la lecture qui en est faite par le lecteur contemporain.

Depuis septembre 2005, le professeur Hubert Emptoz, directeur de l’équipe Numérisation et Reconnaissance dans les Images de documents (intégrée dans le LIRIS (Laboratoire d’InfoRmatique en Image et Systèmes d’information, Lyon)) s’est associé à notre projet dans le cadre du Cluster 13 ((Culture, patrimoine et création/ numérisation et reconnaissance des documents)), structure fonctionnant avec des fonds de la région Rhône Alpes et dirigée par Philippe Régnier (CNRS). Une bourse de doctorant a été allouée à Loris Eynard, en thèse avec H. Emptoz, et celui-ci a travaillé au développement des outils de recherche et de transcription utilisés sur le site. La structure du cluster doit nous aider à poursuivre la numérisation. Avec l’aide du directeur de la BIU, M. Micol et de la conservatrice du fond ancien, Mme Perrat, nous avons pu numériser en numérisation directe et en 800 DPI l’année 1785 de la gazette, présente dans leurs collections. Le démontage de la reliure (une reliure du XIXe siècle, fort heureusement pour nous, peu intéressante) a permis de réaliser un travail de qualité. D’autres années doivent être numérisées et nous comptons sur l’aide du Cluster et d’autres structures pour poursuivre cette entreprise.

Développements futurs envisagés

Perspectives : élargissement à d’autres gazettes

Le Courrier, dit Courrier d’Avignon, a été numérisé par les bibliothèques municipales d’Avignon et de Marseille. Grâce aux crédits alloués par le Cluster, le centre 18e Lyon a acheté des copies sur CD Rom et commencera dès que possible la numérisation des collections de cette gazette. Ces deux Bibliothèques nous ont accordé la possibilité d’une mise en ligne accessible à tous.

Un projet européen : EGITEC

Un projet européen a été déposé en 2007 sous le titre European gazettes in the eighteenth century : les gazettes européennes au dix-huitième siècle avec l’acronyme « EGITEC ». Il s’inscrit dans le cadre du 7ème programme cadre de recherche et de développement (PCRD) ( Programme spécifique Coopération Histories and identities – articulating national and European identities SHS 2005-5.2.1 (1er appel – date limite 10 mai 2007)). Son but est de mettre en réseau différentes entreprises de numérisation et de construire un projet de recherches sur les identités européennes à l’œuvre dans la presse d’Ancien Régime.

Une coopération s’est déjà mise en place avec :

  • Le groupe de recherche « Gazette des Deux-Ponts » de l’Université de Trèves, dirigé par le Professeur Hans-Ulrich Seifert. L’université de Trèves a réuni des copies sur film et sur microfiche d’un très grand nombre de numéros de la Gazette des Deux- Ponts en vue d’obtenir un exemplaire complet virtuel de la revue qu’aucune bibliothèque européenne ne possède dans son intégralité (la plus riche collection du journal se trouve aux Deux-Ponts, à la Bibliotheca Bipontina, avec laquelle la BU de Trèves collabore étroitement). Cette université a déjà réalisé un certain nombre de projets de numérisation dans le domaine des études 18istes (la version électronique d’une très grande encyclopédie du 18ième / 19ième siècle (http://www.kruenitz1.uni-trier.de/ ), un portail bilingue consacré au Marquis d’Argens et une base de données iconographique sur les éditions illustrées du Candide de Voltaire). Un travail en cours sur la version numérisée des Œuvres de Frédéric le Grand (plein texte français, mode image pour la première édition allemande) met en œuvre des procédés de reconnaissance automatique de caractères (http://ub-dok.uni-trier.de/friedrich/). Ainsi pour le projet de numérisation de la Gazette des deux-Ponts, on profitera de cette expérience en reconnaissance automatique de caractères et de la présence de chercheurs confirmés.
  • La bibliothèque royale de Belgique collabore depuis plusieurs années avec le centre d’études du 18e siècle de Lyon, fournissant les microfilms de sa collection de la Gazette de Leyde. Elle participera au projet en donnant accès à ses collections pour réaliser cette fois une numérisation directe de haute qualité.
  • Le Groupe d’étude du dix-huitième siècle de l’Université de Liège, placé sous la responsabilité conjointe de Daniel Droixhe et de Françoise Tilkin. Dans le cadre du projet européen, le Groupe d’étude du XVIIIe siècle pourrait, si les moyens lui en sont donnés, assurer la numérisation du Journal Général de l’Europe (1785-1792), mais aussi d’autres journaux, dont l’Esprit des Journaux (1772-1818).

Malgré un avis favorable, le projet EGITEC est en suspens et sera reproposé sous une forme actualisée et enrichie, adaptée au prochain appel d’offre européen. À suivre, donc… En attendant, les gazettes de Leyde et d’Avignon progresseront lentement mais régulièrement grâce à des financements régionaux (Cluster 13, Rhône-Alpes) et grâce à l’aide de l’UMR 5611 (antenne CNRS-Lyon2).

Anne-Marie Mercier-Faivre

Visita il sito

Reader Rating2 Votes
9.5
9.5