Unités constitutives

1- Les pages

L’unité constitutive matérielle du corpus des dossiers documentaires de Bouvard et Pécuchet est la page1. Un feuillet est formé de deux pages ou folios, un recto et un verso – dont l’un peut être vierge (il s’agit le plus souvent du verso, mais pour diverses raisons, on note l’existence d’une vingtaine de rectos vierges dans le corpus). La taille des documents est très variable : des pages déchirées dans de petits carnets de notes voisinent avec d’imposantes feuilles de journaux entiers qui ont dû être repliées pour pouvoir être insérées dans les recueils de la bibliothèque municipale de Rouen. Constituent aussi des pages les découpures de papier (ou béquets) que Flaubert a collées par leur bord gauche dans la marge de certaines feuilles et qui se trouvent donc parfois en situation de chevaucher d’autres zones de texte. Ces béquets comportent parfois du texte au recto et au verso. Chaque page est présente sur le site d’édition sous la forme d’une image2 (le corpus en compte quelque 3500), mise en relation avec sa transcription.

La numérisation d’ensemble du corpus n’ayant pu être réalisée en raison de l’état de conservation médiocre des documents (une onéreuse restauration préalable aurait été nécessaire), la majeure partie des images disponibles sur le site, en noir et blanc, sont issues de la numérisation du microfilm de sauvegarde des manuscrits. Seul un échantillon de pages (autour de 300), représentatif de la diversité du corpus, a pu être numérisé en couleur et en haute définition, aux frais du projet, par le service compétent de la bibliothèque municipale de Rouen. En revanche, les deux recueils concernant le Dictionnaire des idées reçues (g227 et g228) ont été intégralement numérisés par l’institution de conservation qui en a fait gracieusement bénéficier le présent site d’édition3.

La transcription4 des documents est disponible sous quatre formats, accessibles chacun indépendamment grâce à un onglet et une URL dédiés :

  • la transcription ultra-diplomatique se présente sous la forme d’un fichier PDF généré à partir d’un logiciel de traitement de texte. Cette transcription reprend toutes les spécificités de la graphie du scripteur, qu’il s’agisse des mises en forme (comme les caractères barrés et soulignés) ou du contenu textuel (sont conservés aussi bien les abréviations que les lapsus, les répétitions ou les fautes d’orthographe). En outre, le transcripteur s’est efforcé de respecter la disposition des différents éléments textuels sur la page ; il a reproduit les traits de liaison et les marques de sélection (croix, traits, etc.). On peut dire de cette transcription qu’elle « mime » au mieux la page du manuscrit.

Les trois autres types de transcription s’affichent au format HTML et sont générés à partir des fichiers XML/TEI :

  • la transcription diplomatique conserve tous les traitements textuels décrits pour la version ultra-diplomatique. En revanche, elle homogénéise et rationalise une partie des dimensions topographiques et graphiques : par exemple, les ajouts interlinéaires ne sont plus positionnés là où ils se trouvent sur le manuscrit ; ils sont intégrés dans la phrase, à leur point d’insertion logique, en caractères plus petits ; la présence sur la page d’un fragment imprimé est matérialisée par l’adjonction d’un fond de couleur grise ; le texte des béquets, délimité par un cadre en pointillés, est inséré à l’endroit désigné par le collage de Flaubert ;
  • la transcription normalisée achève d’homogénéiser le rendu topographique des pages en déterminant et en ne conservant que quelques espaces signifiants (essentiellement deux : la marge et le corps du texte). Mais surtout, elle propose un texte intelligible par tous les lecteurs, débarrassé des particularités et des graphies déviantes propres à chaque scripteur : les fautes d’orthographe sont corrigées, les abréviations sont complétées, les majuscules manquantes et la ponctuation défaillante sont rétablies. C’est à ce niveau qu’est accessible l’annotation critique du texte ;
  • enfin, la transcription enrichie permet de faire le lien entre les versions diplomatique et normalisée. Plutôt que de surcharger la version normalisée de signes diacritiques matérialisant les modifications opérées par l’éditeur, il a semblé plus intéressant de produire un texte normalisé aussi « propre » et lisible que possible et de présenter, par l’intermédiaire d’une visualisation dédiée, les « variantes » que proposerait l’apparat d’une édition critique imprimée. Grâce à l’utilisation de couleurs et de différents signes diacritiques, cette transcription enrichie met en exergue tous les traits encodés dans le fichier XML/TEI – sans qu’il soit pour autant nécessaire d’ouvrir ce fichier qui n’est pas d’un abord aisé pour les non-spécialistes. Par exemple apparaissent clairement dans la transcription enrichie les lapsus et leurs corrections qui sont parfois difficilement détectables en lecture cursive tant dans les transcriptions ultra-diplomatique et diplomatique que dans la version normalisée.

Aux pages sont associées des annotations critiques et une dizaine de métadonnées au nombre desquelles sont à signaler les métadonnées de classement : pour chaque page sont en effet proposés un classement typologique (en fonction des différents types de pages qui existent dans le corpus : notes de lecture, pages préparées pour le second volume, documentation brute imprimée, etc.) ; un classement chronologique (selon la datation plus ou moins précise qui peut être affectée à chaque page en fonction d’informations internes, comme les filiations génétiques, ou externes, la date d’emprunt d’un ouvrage consignée dans le registre d’une bibliothèque ou la mention, dans une lettre, de la période à laquelle une lecture a été faite par le romancier) ; et un classement par scripteur (Flaubert est évidemment le plus largement représenté, mais bien d’autres personnes lui ont apporté leur aide et ont laissé des traces manuscrites dans les dossiers de Rouen, au premier rang desquelles son ami Edmond Laporte, mais aussi son « disciple » Guy de Maupassant). Ces classements permettent de proposer trois points d’accès au corpus qui s’ajoutent à celui que fournit, par défaut, le classement patrimonial, accessible par les sections du descriptif établi par l’institution de conservation ou par cotes. On peut ainsi consulter les pages du corpus en fonction de leur localisation physique, de leur appartenance typologique, de leur datation et de leur(s) scripteur(s).

 

2- Les textes

Dans les recueils conservés à la bibliothèque de Rouen, les pages qui se suivent matériellement constituent des ensembles de taille et de nature diverses dont le spécialiste, à la lecture, est seul en mesure de définir les limites et de confirmer ou rectifier l’ordonnancement. Une fois regroupées dans un ordre validé scientifiquement, ces pages forment des « textes » qui appartiennent à des catégories typologiques homogènes. Ils permettent de parcourir le corpus selon une logique proche de celle du classement patrimonial puisqu’elle est fondée sur des configurations existant physiquement dans les dossiers (pages rassemblées dans des sous-dossiers indiquant des intitulés de catégories destinées au second volume, pages de notes de lecture commençant par le titre de l’ouvrage lu, etc.). Mais l’intérêt supplémentaire que présentent les textes est de procurer un point d’accès unique à chaque ensemble de pages et d’en permettre la lecture continue, quelle qu’en soit la longueur.

L’ordonnancement scientifique sur lequel repose la composition des textes peut amener à modifier l’ordre de succession matérielle des pages dans les dossiers conservés à la bibliothèque municipale de Rouen. En effet, il corrige les inévitables erreurs sporadiques qui ont été fortuitement introduites au moment de la foliotation et de la constitution des recueils de documents par l’institution de conservation patrimoniale : feuilles reliées à l’envers (le verso devant donc être lu avant le recto) ou pages ayant été malencontreusement déplacées. L’unité éditoriale Texte prend ainsi en compte les reclassements nécessaires et permet de lire l’objet édité dans sa logique, ce qui n’est pas toujours possible en recourant au simple feuilletage du corpus selon le classement patrimonial. Cependant, on reste encore à ce stade au plus près de la réalité physique des documents en se contentant de mettre au jour ou de reconstruire les configurations qu’ils formaient effectivement au moment de la mort de Flaubert.

Techniquement, chaque texte, que ce soit en version diplomatique ou en version normalisée, présente l’agrégation – au sein d’une page HTML – du contenu balisé en XML/TEI de l’ensemble des pages concernées ; il est doté d’une URL spécifique et est accessible sur le site à partir d’une page de sommaire permettant de lister, type par type, la totalité des textes du corpus selon différents ordres (classement patrimonial, ordre alphabétique des titres, etc.). On peut basculer de la visualisation en mode Textes vers la visualisation en mode Pages en cliquant sur les imagettes des manuscrits qui scandent le passage d’une page à la suivante.

 

3- Les fragments

Si les textes (unités logiques à fondement matériel) sont constitués de pages (unités matérielles), les pages, quant à elles, sont composées de fragments textuels. Ces fragments ont une réalité physique (on peut les isoler sur l’espace de la page manuscrite et certains d’entre eux ont fait l’objet de découpages et de collages par Flaubert lui-même), mais ce sont surtout les unités logiques fondamentales de l’édition électronique du corpus : à leur niveau va être vérifiée et promue la mobilité des éléments constitutifs des dossiers documentaires de Bouvard et Pécuchet. La possibilité de créer des reconstitutions conjecturales du second volume du roman repose sur le découpage de l’intégralité du corpus en fragments textuels, opération qui le rend manipulable et infiniment réagençable.

Chaque fragment textuel est accessible par l’intermédiaire d’une métadonnée (« Référence bibliographique de fragment ») attachée à la page où il apparaît, et élucidant la référence bibliographique exacte du fragment copié par Flaubert ou l’un de ses collaborateurs. Ce travail d’identification de la source est d’autant plus indispensable que les références bibliographiques indiquées par les scripteurs sont souvent lacunaires, voire fausses, partiellement ou totalement. Et il arrive fréquemment qu’aucune source ne soit mentionnée. D’autres informations relatives au fragment sont accessibles sur une page dédiée, pourvue d’une URL propre, qu’on affiche en cliquant sur la métadonnée ou directement sur la référence bibliographique dans la transcription normalisée. Sont alors accessibles :

  • l’intitulé du fragment,

  • le stade typologique auquel appartient la page où le fragment apparaît,

  • le périmètre du fragment (« Genèse du second volume de Bouvard et Pécuchet » ou « Hors genèse de Bouvard et Pécuchet », par exemple),

  • la localisation du fragment dans le corpus (la cote de la page où il apparaît),

  • l’« imagette » du fragment (c’est-à-dire l’image du manuscrit réduite à la zone qui le concerne),

  • la transcription du fragment (affichée en version diplomatique et normalisée),

  • l’identité du ou des scripteurs qui ont copié le fragment,

  • et enfin, l’élucidation des références bibliographiques que le fragment comprend : au premier chef, celle du fragment lui-même (la « référence bibliographique de fragment »), complétée, le cas échéant, de ses possibles « sources alternatives » (les autres ouvrages qui comportent le même fragment), mais aussi, lorsqu’il y a lieu, celle des ouvrages que le contenu du fragment mentionne (« références bibliographiques externes »).

 

4- Les citations

La méthode de travail rédactionnelle de Flaubert induit un incessant processus de recopiage des mêmes fragments dans des configurations génétiques diverses. Sur le présent site, ces fragments qui déclinent un contenu identique ou porteur de variations textuelles infimes (ou plus sensibles) sont regroupés dans une entité unique que l’on nomme « citation ». Si un fragment est la réalisation textuelle d’une référence bibliographique déterminée, une citation est le regroupement de tous les fragments présentant la réalisation textuelle de la même référence bibliographique. Au nombre des fragments constituant une citation, l’un est choisi pour être le « fragment de référence » : c’est celui qui présente l’évolution génétique la plus importante (en général, celle qui ressortit au stade des pages préparées). Pour éviter de convoquer dans une reconstitution conjecturale du second volume de Bouvard et Pécuchet des fragments textuels qui présenteraient la réalisation d’une même référence bibliographique exacte, les agencements se font au niveau des citations qui apparaissent par l’intermédiaire de leur fragment de référence.

Chaque citation possède une page dédiée, pourvue d’une URL et présentant toutes les informations nécessaires à son identification :

  • la référence bibliographique exacte de la citation (qui est aussi celle de l’ensemble des fragments qu’elle regroupe) ;

  • le cas échéant, le lien direct vers la ou les pages concernées de l’ouvrage en ligne (sur Gallica, GoogleBooks ou une autre bibliothèque numérique) ;

  • la localisation de la citation dans les différentes éditions imprimées existantes ;

  • et enfin, le nombre et l’identification des occurrences de la citation dans le corpus, c’est-à-dire la liste des fragments qu’elle réunit, avec indication, par l’intermédiaire d’une étoile, de celui qui a été choisi comme fragment de référence.

 

 


 

1 Voir le descriptif du projet et des différents objets éditoriaux dont il est à l’origine dans Stéphanie Dord-Crouslé, Emmanuelle Morlock-Gerstenkorn et Raphaël Tournoy : « Nouveaux objets éditoriaux. Le site d’édition des dossiers documentaires de Bouvard et Pécuchet (Flaubert) » ; Les Cahiers du Numérique, n° 3-4/2011 « Empreintes de l’hypertexte. Rétrospective et évolution », sous la dir. de Caroline Angé, Paris, Lavoisier, 2012, p. 123-145 [disponible en ligne sur CAIRN].

2 Pour des raisons ergonomiques, les images des versos vierges ont été supprimées.

3 Pour toute utilisation ou mention des images et/ou des transcriptions publiées sur le site, consulter préalablement les mentions légales.

4 Les principes éditoriaux sont exposés dans l’onglet dédié.