POPP : un projet de science ouverte
Le projet POPP[1], dirigé par Sandra Brée (historienne, démographe CNRS au LARHRA et responsable de la partie SHS du projet), François Merveille (Bibliothécaire au GED-Campus Condorcet) et Thierry Paquet (Professeur d'informatique à l'Université de Rouen et responsable de la partie informatique du projet) a obtenu un financement du GIS Collex-Persee[2] pour créer une vaste base de données (12 millions de personnes) basée sur les recensements nominaux de la population de Paris de 1926, 1931, 1936 et 1941 qui sont les seuls recensements de la population parisienne existants avant la fin du 20e siècle. POPP est un projet novateur qui constituera une avancée majeure pour la recherche historique. En effet, la reconnaissance optique de caractères permet de lire des documents dactylographiés et même manuscrits, tels que les recensements parisiens, et donc de créer des bases de données quantitatives exceptionnellement importantes sans avoir à relever toutes les informations à la main.
Outre l'intérêt méthodologique promis par les progrès de la reconnaissance optique des caractères, la base POPP permettra de connaître la population parisienne pendant l'entre-deux-guerres dans son intégralité. L'analyse quantitative et statistique des populations est rendue particulièrement difficile en histoire en raison du manque de bases de données. L'indexation des recensements parisiens de 1926, 1931, 1941 et 1946 sera l'occasion d'une avancée majeure dans la connaissance de la population urbaine européenne, jusqu'alors peu étudiée.
Sources et méthode
Les recensements parisiens de l'entre-deux-guerres sont numérisés et mis en ligne sur le site des Archives de Paris. Les quatre recensements sont basés sur le même modèle, ce qui rend l'apprentissage plus aisé pour la machine. Chacun d'entre eux est composé de 50 000 vues, et donc environ 20 000 vues à travailler.
Les informations contenues dans les recensements de population permettent de connaître la composition de chaque ménage dans les 80 arrondissements parisiens (répartis en 20 arrondissements). Pour chaque individu, les informations suivantes sont fournies : nom, prénom, année et lieu de naissance, nationalité, état civil, situation du ménage (chef, épouse, enfant, travailleur domestique, etc.), ainsi que la profession et l'adresse.
L'équipe du laboratoire LITIS EA 4108 (Rouen, France) a développé un outil de lecture optique de plus en plus performant pour extraire des informations imprimées d'annuaires historiques afin de constituer des bases de données historiques. Ils ont déjà travaillé sur des données financières et travaillent maintenant pour la première fois sur des données de population. Dans cette continuité, le projet POPP est un véritable défi à relever puisque les recensements de population ne sont pas tapuscrits, comme les données boursières, mais remplis à la main.
Les premiers tests sont cependant concluants, d'une part parce que les recherches de Sandra Brée sur la population parisienne (Brée, 2015, 2017) lui ont permis de créer des bases de données (professions, noms, lieux) qui permettent de paramétrer les algorithmes de détection optique, et d'autre part parce que l'équipe de Thierry Paquet possède également une expertise dans la reconnaissance de l'écriture manuscrite, et dans la mise en place de chaînes de traitement et de production de données structurées comme les archives de presse.
Concrètement, une fois les caractères lus optiquement, les données sont compilées dans un site web fonctionnel où les informations reconnues par la machine pourront être modifiées manuellement (grâce à une plateforme web collaborative). La machine est ensuite régulièrement "alimentée" en nouveaux termes afin d'enrichir de plus en plus son vocabulaire et de traiter d'autres parties du corpus. Une fois ce long travail terminé, une base de données sera créée pour être lisible sous un logiciel statistique.
Présentation
Nous proposons, pour le colloque Humanistica 2021, de présenter le projet POPP qui a débuté en septembre 2020. Nous commencerons par un état des lieux sur la recherche en histoire quantitative des populations et en démographie historique pour montrer l'intérêt de créer des bases de données informatiquement, notamment pour la population urbaine, et surtout à partir de la fin du XIXe siècle car les villes sont très denses et les relevés particulièrement longs.
La sources, les recensements de la population parisienne, sera ensuite présentée ; ainsi que les problématiques et questions de recherche qu'elle permettra d'aborder.
Nous ferons ensuite un point sur les techniques de reconnaissance automatique de l'écriture manuscrite mobilisées pour les besoins du projet (Soulard et al., 2019; Coquenet et al., 2020). D'une part nous présenterons les différentes étapes nécessaires pour permettre à la machine d'apprendre une représentation optique des écritures. Les phases d'annotation des données et d'optimisation par la machine seront détaillées. D'autre part nous montrerons comment le modèle optique peut être complété par un modèle de langage contextuel adapté à chaque élément tabulaire, pour finalement permettre une lecture dirigée par la sémantique des tableaux de recensement.
La plateforme spécifique, PIVAN-POPP, développée par le LITIS pour la correction manuelle des données océrisées par la machine sera ensuite présentée. Cette plateforme web constitue un élément essentiel pour la collaboration entre les partenaires en proposant une interface de visualisation IIIF avancée en mode image, et un éditeur/correcteur de transcriptions synchrone du visualiseur. Cette plateforme permet de réaliser des annotations massives indispensables aux techniques d'apprentissage machine, et de contrôler les résultats de reconnaissance automatique. Les liens entre l'équipe informatique du LITIS et les chercheurs en SHS et documentalistes pour la construction de la base de données seront alors concrètement explicités.
Références
Brée S. 2017, Paris l'inféconde, La limitation des naissances en région parisienne au XIXe siècle, Paris, INED.
Brée S., 2015, La population de la région parisienne au XIXe siècle, Démographie et Société n°6
Coquenet D., Chatelain C., Paquet T., 2020, Recurrence-free unconstrained handwritten text recognition using gated fully convolutional network, 17th International Conference on Frontiers in Handwriting Recognition (ICFHR), pp. 19-24.
Soullard Y., Swaileh W., Tranouez P., Paquet T., Chatelain C., 2019, Improving Text Recognition using Optical and Language Model Writer Adaptation, ICDAR, pp. 1175-1180, Sydney.