Accès direct au contenu


Version française > Actualités > Manifestations

Offre de stage en Informatique R&D – Conception d’une « machine à collationner » numérique destinée au livre ancien | LI-CESR, Tours

du 30 novembre 2016 au 31 janvier 2017

Offre de stage en Informatique R&D
niveau Bac+5 ou Master

Intitulé du stage : Recalage et comparaison d’images de pages provenant de différents exemplaires de livres anciens numérisés

Mots-clés : Analyse d’images, documents anciens, comparaison de contenu, alignement, recalage

Résumé du contexte et des objectifs du stage

Objectif applicatif : concevoir une «machine à collationner» numérique destinée au livre ancien

L’objectif de ce stage est la production d’un outil informatique destiné à l’étude du livre et des textes anciens, susceptible de rencontrer des applications dans le champ des humanités numériques.

On conserve généralement, dans les bibliothèques, différents exemplaires d’une même édition ancienne (15e-18e siècles). Leur texte est souvent réputé identique, puisqu’ils ont tous été imprimés en même temps, sous une même presse. Or, la comparaison minutieuse des différents exemplaires conservés d’une même édition fait souvent apparaître des variations d’état : des corrections typographiques ont pu être apportées sous presse en cours d’impression, des passages ont pu être censurés, des annotations manuscrites ajoutées, etc. Ainsi deux exemplaires réputés identiques présentent-ils des variantes souvent importantes pour l’histoire du texte et de la réception du livre.

Pour étudier ces variantes, le bibliographe Charlton Hinman avait développé, au milieu du 20e siècle, une « machine à collationner » permettant, par un jeu de miroirs et de lentilles optiques, de projeter sur un même écran les pages de deux exemplaires différents, afin de mieux en faire ressortir, visuellement, les variantes. De tels machines sont rares, fragiles, complexes à mettre en œuvre, et nécessitent, surtout, de réunir dans une même salle deux exemplaires d’une même édition.

La numérisation de corpus massifs de livres anciens dans des bibliothèques du monde entier permet aujourd’hui au chercheur de disposer depuis son domicile des versions numériques de plusieurs exemplaires différents. Il devient donc possible d’envisager la réalisation d’une « machine à collationner » numérique, capable de réaliser automatiquement les tâches suivantes :

  • Rapprochement et alignement des images de pages issues d’exemplaires différents afin de pouvoir ensuite comparer plus finement leur contenu
  • Suppression du bruit et recalage des images par application de transformations géométriques
  • Comparaison page à page et signalement des variantes les plus importantes au travers d’IHMs conviviales

Définition et description des missions en termes scientifiques et informatiques

Ces dernières années, de nouvelles techniques d’analyse et de recherche d’images très performantes ont vu le jour notamment grâce, d’une part à un couplage avec des techniques de détection de points d’intérêt (SIFT, VLAD, …) et de template matching, et d’autre part grâce à leur couplage avec des techniques d’apprentissage automatique.

L’objectif de ce stage réside dans la mise en place de ce nouveau type d’approches dans le cadre du recalage et de la comparaison de contenu d’images de documents anciens. Plus précisément, il s’agira ici de mettre en place une méthode (type CBIR1) pour comparer le contenu textuel et graphique de couple d’images fortement bruitées afin de mettre en évidence les différences significatives sans être sensible au bruit. Les méthodes proposées pourront exploiter des informations de structures (paragraphes, lignes, marges,…) ainsi que des méthodes de recalage habituellement utilisées pour le recalage d’images médicales (IRM). Ces méthodes [2] devront être adaptées pour être exploitées sur des images de types différents.
Une fois les images recalées, des méthodes de region proposal [3] et de template matching robustes au bruit [1] seront mises en place pour la mise en évidence (détection) des variations entre exemplaires.

Observations

Ce stage s’effectuera au sein du Laboratoire d’informatique de l’Université de Tours afin de réactiver les collaborations fructueuses passées avec le programme « Bibliothèque Virtuelles Humanistes ». Le stagiaire pourra ainsi s’appuyer sur les outils développés dans le cadre d’anciennes collaborations, notamment les logiciels Agora et Rétro. Il sera encadré par une équipe d’informaticiens spécialistes du traitement d’images et suivi étroitement par l’équipe du Centre d’études supérieures de la Renaissance.

Références

1 Content Based Image Retrieval
[1] Mathieu Delalandre, Motoi Iwata, Koichi Kise: Fast and Optimal Binary Template Matching Application to Manga Copyright Protection. Document Analysis Systems 2014: 298-303
[2] M. Fornefett, K. Rohr, and H. Stiehl, “Radial basis functions with compact support for elastic registration of medical images,” Image and Vision Computing, vol. 19, no. 1-2, pp. 87–96, 2001.
[3] S. En, C. Petitjean, S. Nicolas, F. Jurie, and L. Heutte. “Region proposal for pattern spotting in historical document images ». International Conference on Frontiers in Handwriting Recognition, 2016, Shenzhen, China.

Informations pratiques

Profil du candidat

Le candidat souhaité est un étudiant en Master ou dernière année d’une formation d’ingénieur en Informatique, avec des bonnes compétences en programmation (langage C# ou Java ou Python) et des connaissances en analyse d’images et/ou reconnaissance des formes.

Candidature

CV et lettre de motivation à envoyer à ramel@univ-tours.fr et remi.jimenes@univ-tours.fr

Lieu du stage

Laboratoire d’informatique, Polytech-Tours, 64 avenue Jean Portalis, 37200 Tours

Noms et adresses courriels des responsables du stage

Laboratoire d’informatique de Tours (EA 6300), équipe RFAI
• Jean-Yves Ramel jean-yves.ramel@univ-tours.fr
Centre d’études supérieures de la Renaissance de Tours , programme BVH
• Rémi Jimenes remi.jimenes@univ-tours.fr
• Toshinori Uetani toshinori.uetani@univ-tours.fr
• Chiara Lastraioli chiara.lastraioli@univ-tours.fr

Dates / Durée du stage : 5 ou 6 mois entre Février et Septembre 2017
Indemnités du stage : indemnités mensuelles de 550 euros/mois environ

Télécharger l’offre de stage

 
  • Facebook
  • twitter
  • google
  • imprimer
  • version PDF
  • Envoyer cette page

Informations complémentaires

Lieu(x)

  • Site CESR (Centre d'Etudes Supérieures de la Renaissance)

Recherche d'une actualité

Recherche d'une actualité

Retour au site institutionnel