Corpus

1- Définition

À sa mort, Flaubert a laissé derrière lui plusieurs milliers de pages en lien avec son dernier projet. Par Caroline d’abord, puis par la bibliothèque municipale de Rouen, l’institution en charge de leur conservation¹ (la nièce ayant choisi en 1914 de donner à la ville natale de son oncle les manuscrits des deux « romans normands », Madame Bovary et Bouvard et Pécuchet), les documents ont été répartis en plusieurs ensembles² dont trois items constituent le corpus actuellement visé par cette édition :

Ms g226 (1) à (8) – les recueils de documents divers rassemblés pour le premier et le second volume (2215 feuillets) ;
Ms g227 – deux versions du Dictionnaire des idées reçues (59 feuillets) ;
Ms g228 – une version du Dictionnaire des idées reçues (26 feuillets).

Il s’agit d’un ensemble patrimonial homogène mais dont la cohérence intellectuelle est loin d’être totale : si de nombreux ensembles documentaires présents dans les différents volumes de la cote g226 n’ont aucun lien avec Bouvard et Pécuchet, des dossiers attendus (par exemple, les très nombreuses notes prises en vue de la rédaction du chapitre sur l’Histoire) ne s’y trouvent pas. En effet, la nièce de Flaubert n’a pas donné à la ville de Rouen l’intégralité des documents relatifs au roman laissés par son oncle ; certains sont donc passés en vente après la mort de Caroline et ont depuis disparu dans des collections privées³. On trouvera sur le site Flaubert de l’université de Rouen un inventaire ordonné et aussi exhaustif que possible des documents dont on peut penser, a posteriori, qu’ils ont contribué peu ou prou à la genèse du roman.

Fig. 1- Le projet Bouvard : cohérence patrimoniale et cohérence intellectuelle

Il serait éminemment souhaitable qu’un jour, la cohérence intellectuelle du corpus des dossiers documentaires de Bouvard et Pécuchet puisse être rétablie de manière virtuelle grâce à la réunion, sur un portail dédié, de la totalité des pages ayant servi à la préparation du dernier roman de Flaubert, quel que soit le lieu de leur conservation matérielle actuelle. Sans qu’on franchisse encore les limites de la bibliothèque municipale de Rouen, un premier et modeste pas pourra être rapidement fait dans ce sens grâce à la publication des feuillets de notes de lecture qui se trouvent conservés dans les volumes de brouillons du roman (g225) récemment mis en ligne.

2- Triple hétérogénéité

Le corpus des dossiers documentaires de Bouvard et Pécuchet est porteur d’une triple hétérogénéité constitutive. La première vient de la nature physique des documents qu’il recèle : certains sont entièrement manuscrits ; d’autres sont intégralement imprimés ; enfin, nombreux sont ceux qui présentent un caractère mixte, à la fois manuscrit et imprimé, résultant des découpages et des collages multiples opérés par le romancier.

Une autre hétérogénéité découle de l’appartenance typologique variée des pages du corpus. À côté d’une documentation brute ou peu traitée constituée de coupures de presse, de cahiers d’ouvrages, et même de journaux entiers dont on ne sait si et comment Flaubert aurait pu les utiliser, figurent de longues listes manuscrites de références bibliographiques et d’innombrables pages de notes de lecture prises par l’écrivain sur les ouvrages qu’il a consultés, et qui ont aussi bien servi à la préparation du premier que du second volume. Mais on trouve aussi des « notes de notes », c’est-à-dire des fiches de synthèse disciplinaires que Flaubert a établies à partir de ses notes de lecture et qui étaient expressément destinées à la rédaction du premier volume. Symétriquement, les « pages préparées pour le second volume » présentent l’état le plus élaboré du travail accompli par l’écrivain en vue du chapitre XI de son roman, correspondant à la « copie » des deux personnages.

Un dernier type d’hétérogénéité du corpus est fonction de la destination diverse des pages qui le composent. Comme on vient de le dire, la plus grande partie d’entre elles sont issues de la genèse de Bouvard et Pécuchet au sens large, c’est-à-dire, d’une part, des campagnes documentaires menées spécifiquement par Flaubert pour son dernier roman et, d’autre part, de l’élaboration rédactionnelle de pages destinées à son premier ou à son second volume. Cependant, une partie non négligeable de la documentation utilisée pour le roman encyclopédique avait été collectée plusieurs années auparavant et mise à profit d’abord pour la rédaction de L’Éducation sentimentale (par exemple, c’est le cas de nombreuses notes prises sur des journaux de 1847 ou plus largement sur les événements de 1848). Mais surtout, des pans entiers des dossiers documentaires de Bouvard et Pécuchet ne concernent en rien le second volume du roman : on y trouve aussi bien des pages de brouillons du premier volume que des feuillets appartenant à la genèse d’autres œuvres de Flaubert (comme des brouillons de L’Éducation sentimentale ou le plan originel d’Un cœur simple), mais aussi des matériaux documentaires remontant à l’écriture de Madame Bovary (comme des notes prises sur la chimie ou les « Mémoires de Mme Ludovica ») et des scénarios de pièces de théâtre dont l’origine est totalement inconnue.

3- Mobilité structurelle des fragments du corpus

La dernière caractéristique du corpus, et sûrement la plus importante, est la mobilité des éléments qui le composent⁴. Cette mobilité doit d’abord être entendue comme la conséquence – à laquelle il faut pouvoir intellectuellement remédier – de déplacements involontaires : la nature originelle des documents et leur organisation matérielle (des pages volantes simplement serrées dans des chemises cartonnées) ont pu les provoquer, favorisés en cela par les circonstances de la mort de Flaubert et les changements de domicile successifs de Caroline. On ne peut donc faire l’économie de l’hypothèse selon laquelle certains feuillets ne se trouvent pas actuellement à la place qu’ils devraient occuper. Mais cette mobilité matérielle accidentelle (que l’on tentera de corriger grâce à la notion de « Texte » ) est anecdotique à côté de celle, profondément structurelle, dont sont porteurs les dossiers documentaires.

En effet, la mobilité est au cœur du projet de Flaubert dans la mesure où le processus rédactionnel du second volume de Bouvard et Pécuchet repose sur d’incessants transferts de fragments textuels, sur leurs multiples recopiages accompagnés de reclassements successifs. Dans le schéma génétique d’une élaboration régulière, un fragment destiné au second volume apparaît pour la première fois sur une page de note de lecture ; le plus souvent, il est accompagné en marge d’une marque de sélection du type « à copier » et d’une vedette rappelant son contenu thématique ou indiquant déjà dans quelle rubrique du second volume il pourrait être classé. Le fragment est ensuite recopié sur une page de type récapitulatif : des fragments issus d’ouvrages divers se trouvent alors rassemblés sous un titre indiquant un thème général comme « Littérature médicale ». Néanmoins, Flaubert semble n’avoir eu recours à cette étape intermédiaire que dans les premiers temps de la rédaction du roman. En revanche, le stade suivant marque indiscutablement l’accession du fragment au texte en gestation de la copie des deux bonshommes. Sur ces pages spécifiquement destinées au second volume, le fragment se trouve alors placé sous la dépendance d’une catégorie appartenant explicitement aux scénarios laissés par le romancier.

Ainsi, un fragment qui parvient au stade typologique le plus avancé (celui des pages préparées) a toujours préalablement connu une, deux, voire trois versions antérieures, toutes concurremment présentes dans le corpus. Quant aux vedettes ou termes d’indexation associés à un fragment, ils peuvent demeurer inchangés au fil des étapes ou, au contraire, se trouver modifiés du tout au tout. Mais il y a nombre de variations problématiques qui complexifient ce parcours génétique régulier. D’abord, l’inachèvement du processus rédactionnel implique que certains fragments, pourtant sélectionnés en vue du second volume, n’ont pas franchi les étapes successives et sont restés immobilisés au stade des notes de lecture. Ils peuvent néanmoins légitimement prétendre à participer à une reconstitution conjecturale du second volume⁵. Ensuite, il arrive que Flaubert ait hésité entre deux termes d’indexation pour un même fragment, chacun d’entre eux impliquant une configuration particulière et donc le déplacement du fragment d’une rubrique vers une autre. Cette hésitation n’ayant pas été tranchée, des indexations divergentes continuent à coexister et obligent à conserver aux fragments textuels une mobilité qui est nécessairement défaite par la fixité d’une édition imprimée.

Les dossiers documentaires de Bouvard et Pécuchet sont donc un corpus complexe dont une édition imprimée ne peut rendre compte de manière satisfaisante dans la mesure où elle doit opérer des choix qui amènent à gommer le dynamisme du chantier jamais achevé du second volume. Le défi qu’a voulu relever le présent projet éditorial consiste à préserver cette mobilité constitutive en remplissant simultanément deux objectifs :

éditer un corpus patrimonial complexe et difficilement accessible ;
rendre ce corpus manipulable et, en particulier, permettre de produire à la demande des reconstitutions conjecturales du second volume.

Le support électronique offre en effet la possibilité de représenter le document patrimonial dans sa dynamique propre, tout en le donnant à lire au sein d’une édition critique scientifique. L’encodage de l’ensemble du corpus en XML/TEI permet d’identifier et de délimiter des unités textuelles et de les rendre mobiles : elles peuvent dès lors être extraites de leur contexte, sans pour autant perdre la mémoire de leur configuration originelle.

Fig. 2- L’édition du corpus des dossiers documentaires au service de la production de seconds volumes possibles de Bouvard et Pécuchet.

En mettant en mouvement les possibilités d’agencement que recèlent les pages préparées et plus largement tous les fragments marqués pour le second volume contenus dans les dossiers documentaire de Bouvard et Pécuchet, on dévoile – pour partie – ce qu’ont pu être les intentions de l’auteur, les chemins qu’il voulait emprunter au vu des traces qu’il a laissées, sans introduire de biais latent ni réduire la complexité originelle et spécifique du corpus.

4- Acquisition et traitement des images

Avant même la sélection et le financement effectif du projet par l’ANR, une version numérisée du microfilm de sauvegarde des documents visés par le projet a été acquise. Ainsi, le retraitement de ces images (découpage et nommage) a permis de mettre le corpus très rapidement à la disposition de l’équipe scientifique, sans attendre l’issue malheureuse des négociations qui ont été menées avec l’institution de conservation en vue de la numérisation intégrale du corpus. Cette opération aurait en effet nécessité la restauration préalable des documents et donc un important financement dédié qu’il n’a pas été possible de trouver. L’essentiel des images utilisées par le projet (au nombre de 3500) se trouve donc être les images issues de la numérisation du microfilm de sauvegarde en noir et blanc, d’une qualité moyenne mais en générale suffisante pour la lecture et l’analyse intellectuelle des spécificités manuscrites. Néanmoins, pour fournir une idée des documents plus proche de la réalité (papiers de couleur, utilisation concomitante d’encre et de crayon, etc.) et pour permettre les tests d’un doctorant informaticien travaillant sur l’extraction automatisée des lignes et des fragments dans les images des manuscrits, un échantillon de 300 images en couleur, représentatif des différents types de documents se trouvant dans le corpus, a été acquis auprès du service de numérisation de la bibliothèque municipale de Rouen aux conditions relativement onéreuses offertes au public. L’institution a en revanche mis gracieusement à la disposition du projet la numérisation des deux dossiers concernant le Dictionnaire des idées reçues (soit 130 images).

Un cadre juridique clair a d’emblée été donné à la diffusion des images sur le site web du projet ainsi qu’à leur utilisation par les membres du projet dans le cadre de leurs recherches personnelles. Une convention quadripartite (Ville de Rouen / CNRS / ENS de Lyon / responsable du projet) autorisant la reproduction, la diffusion et la représentation à titre gracieux des images visées par le projet a été signée le 07/07/2010.

Le découpage des images des manuscrits en régions correspondant aux différents fragments textuels a fait l’objet de plusieurs approches successives. Il s’agissait de tracer les contours de chaque zone et d’en récupérer les coordonnées SVG pour pouvoir ensuite les lier, dans les fichiers XML-TEI (voir infra), aux fragments textuels concernés. Un programme dédié visant à automatiser le processus a été développé par un doctorant informaticien mais les tests finaux ne se sont pas révélés concluants : l’analyse des seules propriétés physiques des manuscrits ne permettait pas d’identifier les zones pertinentes avec suffisamment de précision. Cette piste a donc été abandonnée au profit d’une solution manuelle assistée par un logiciel, en l’occurrence une configuration ad hoc de la plateforme DINAH : chaque image est découpée manuellement en autant d’« imagettes » que l’analyse y a décelé de fragments textuels. Dans chaque fichier TEI, les fragments de texte comportent un identifiant numérique qui est mis en correspondance avec le même chiffre reporté dans le nom des régions d’images découpées par le logiciel DINAH.

1 Pour l’histoire précise de l’entrée de ces manuscrits dans les collections de la bibliothèque municipale de Rouen, on se reportera à l’article très documenté de Marie-Dominique Nobécourt-Mutarelli : « Histoire d’une transmission » (2003, en ligne sur le site du Centre Flaubert de l’université de Rouen). Voir aussi Stéphanie Dord-Crouslé, « La place de la fiction dans le second volume de Bouvard et Pécuchet » ; Arts et Savoirs, n° 1 – « Bouvard et Pécuchet : la fiction des savoirs », coordonné par Gisèle Séginger, février 2012, p. 1-21.

2 Le descriptif patrimonial complet des manuscrits donnés par Caroline peut être consulté sur le site du Centre Flaubert de l’université de Rouen.

3 Voir par exemple Stéphanie Dord-Crouslé, « Un dossier flaubertien mal connu : les notes pour le chapitre “Littérature” de Bouvard et Pécuchet » ; Histoires littéraires, n° 24, 2005, p. 119-135 (article disponible sur HAL-SHS).

4 Voir Stéphanie Dord-Crouslé et Emmanuelle Morlock-Gerstenkorn, « L’édition électronique des dossiers de Bouvard et Pécuchet de Flaubert : des fragments textuels en quête de mobilité » ; Le patrimoine à l’ère du numérique : structuration et balisage, actes du colloque international organisé à Caen les 10 et 11 décembre 2009, sous la dir. de Catherine Bougy, Carole Dornier et Catherine Jacquemard, Caen, Presses universitaires de Caen, « Schedae », 2011, p. 79-89 (article disponible sur le site des PUC et sur HAL-SHS].

5 Voir Stéphanie Dord-Crouslé, « Notes de lecture et édition du second volume de Bouvard et Pécuchet : configurations complexes de l’inachèvement », Flaubert. Revue critique et génétique, n° 7, 2012.