Momenteel vinden grote projecten plaats waarbij oude kranten en andere manuscripten gedigitaliseerd worden.

VUB ontwikkelt software die oude documenten beter kan scannen

Papieren documenten vertonen de vervelende eigenschap dat ze in de loop der tijd steeds slechter leesbaar worden en bij het digitaliseren van oude archieven levert dit grote problemen op. Een student van de onderzoeksgroep Digital Mathematics van de Vrije Universiteit Brussel (VUB) heeft voor zijn doctoraat een prijswinnende software ontwikkeld die niet in de war raakt door scheuren, vlekken of slechte scans. Hij heeft nu met succes zijn proefschrift verdedigd.

Op dit moment worden er in de cultureel erfgoedsector omvangrijke digitaliseringsprojecten uitgevoerd. Daarbij worden grote hoeveelheden oude kranten en andere manuscripten ingescand, om vervolgens via zogenoemde Optical Character Recognition (OCR) te worden gedigitaliseerd. 

OCR of optische tekenherkenning is een systeem waarbij uit een afbeelding de tekens automatisch herkend worden en opgeslagen. Een eerder primitief voorbeeld daarvan is de automatische nummerplaatherkenning.

Het herkennen van de tekens is van essentieel belang omdat de documenten zo doorzoekbaar worden, waardoor informatie veel makkelijker kan teruggevonden worden. Ook kan de tekst gecopy-pastet worden voor gebruik elders. OCR is echter nog altijd verre van perfect. 

De gebruikte algoritmes hebben moeite met materiële schade aan pagina’s, zoals scheuren en vlekken. Bovendien kan de computer in de war raken van de moeilijke tekstopmaak die vaak voorkomt in reclames en modetijdschriften, waarbij tekst bijvoorbeeld geschreven is in verschillende lettertypes, kleuren of aan beide kanten van een afbeelding staat.

Kijken zoals mensen

Voor zijn doctoraatsonderzoek heeft doctor Tan Lu onder leiding van professor wiskunde Ann Dooms een reeks zogenoemde homogeniteitsmodellen ontwikkeld die de computer helpen zijn tekstherkenning sterk te verbeteren. 

Aanleiding was een concrete vraag van de Koninklijke Bibliotheek van België, de Albertina, waar momenteel alles gedigitaliseerd wordt, onder meer de omvangrijke verzameling Belgische kranten. De werken worden daarbij echter gefotografeerd en zijn dus niet doorzoekbaar, er kan hoogstens gezocht worden op een aantal labels. 

Lu ging dus op zoek naar manieren om dat te verbeteren. Nu zijn kranten niet bedoeld om lang bewaard te worden en ze vertonen dan ook heel wat gebreken: er zitten foutjes in, ze zijn geplooid, mogelijk ooit nat geworden en daardoor lopen de kolommen niet meer recht en dergelijke. 

Lu vroeg zich af hoe een bladzijde wiskundig geabstraheerd kon worden om de computer toe te laten de bladzijde beter te begrijpen. Daarvoor ontwikkelde hij de homogeniteitsmodellen waarin hij een aantal scenario's verwerkte om een reeks problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling. 

Bij documentsegmentatie gaat de computer de scan opdelen in segmenten: wat is de achtergrond, het papier waarop het document gedrukt is, wat is informatie? Die informatie gaat hij dan vervolgens opdelen in tekstueel of grafisch. 

Bij het ontwikkelen van de modellen maakte Lu gebruik van de bestaande kennis over de manier waarop onze hersenen omgaan met gecompliceerde beelden. 

"De gestaltpsychologie leert ons bijvoorbeeld dat mensen van nature losse objecten van een zelfde soort met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke lay-outs of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren", zei Lu. 

Door die inzichten uit de waarnemingspsychologie in te passen in een zogenoemd probabilistisch lokaal teksthomogeniteitsmodel (PLTH) leerde Lu de computer omgaan met documenten met een moeilijke layout en beschadigingen en vervormingen. 

Daarbij wordt gebruik gemaakt van machine learning: men laat de computer een gefotografeerde pagina bekijken en als hij dan een pixelcomponent herkent die samen lijkt te hangen, gaat hij rondkijken op de bladzijde en vergelijken. Het probabilistische aspect bestaat er uit dat men de computer, gebaseerd op kansberekening, kan laten beslissen of het om tekst gaat, om een grafisch element of een achtergrondelement. 

Tesseract leest een afbeelding van een citaat uit Harry Potter.
Glitchyme /Wikimedia Commons/CC BY-SA 4.0

Opvolgprojecten

De software die in het kader van het onderzoek ontwikkeld is door de onderzoeksgroep Digital Mathematics van de VUB heeft in 2019 de internationale ICDAR-prijs voor documentherkenning gewonnen. In die wedstrijd presteerde de software beter dan Tesseract, het vrije programma voor Optical Character Recognition dat in het verleden beschouwd werd als een van de meest nauwkeurige vrije OCR-softwaremachines.

Het is de bedoeling dat er nu opvolgprojecten komen waarbij de software geïntegreerd wordt in het systeem van de Albertina-bibliotheek. 

Het OCR-systeem kan ook interessant zijn voor notarissen en andere beroepsgroepen die nog veel met papieren documenten werken en het bedrijfsleven toont eveneens belangstelling.   

Bronnen: persmededeling van de VUB, telefoongesprek met professor Ann Dooms. 

Meest gelezen