Voor zijn doctoraatsonderzoek heeft doctor Tan Lu onder leiding van professor wiskunde Ann Dooms een reeks zogenoemde homogeniteitsmodellen ontwikkeld die de computer helpen zijn tekstherkenning sterk te verbeteren.

Aanleiding was een concrete vraag van de Koninklijke Bibliotheek van België, de Albertina, waar momenteel alles gedigitaliseerd wordt, onder meer de omvangrijke verzameling Belgische kranten. De werken worden daarbij echter gefotografeerd en zijn dus niet doorzoekbaar, er kan hoogstens gezocht worden op een aantal labels.

Lu ging dus op zoek naar manieren om dat te verbeteren. Nu zijn kranten niet bedoeld om lang bewaard te worden en ze vertonen dan ook heel wat gebreken: er zitten foutjes in, ze zijn geplooid, mogelijk ooit nat geworden en daardoor lopen de kolommen niet meer recht en dergelijke.

Lu vroeg zich af hoe een bladzijde wiskundig geabstraheerd kon worden om de computer toe te laten de bladzijde beter te begrijpen. Daarvoor ontwikkelde hij de homogeniteitsmodellen waarin hij een aantal scenario's verwerkte om een reeks problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling.

Bij documentsegmentatie gaat de computer de scan opdelen in segmenten: wat is de achtergrond, het papier waarop het document gedrukt is, wat is informatie? Die informatie gaat hij dan vervolgens opdelen in tekstueel of grafisch.

Bij het ontwikkelen van de modellen maakte Lu gebruik van de bestaande kennis over de manier waarop onze hersenen omgaan met gecompliceerde beelden.

"De gestaltpsychologie leert ons bijvoorbeeld dat mensen van nature losse objecten van een zelfde soort met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke layouts of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren", zei Lu.

Door die inzichten uit de waarnemingspsychologie in te passen in een zogenoemd probabilistisch lokaal teksthomogeniteitsmodel (PLTH) leerde Lu de computer omgaan met documenten met een moeilijke layout en beschadigingen en vervormingen.

Daarbij wordt gebruik gemaakt van machine learning: men laat de computer een gefotografeerde pagina bekijken en als hij dan een pixelcomponent herkent die samen lijkt te hangen, gaat hij rondkijken op de bladzijde en vergelijken. Het probabilistische aspect bestaat er uit dat men de computer, gebaseerd op kansberekening, kan laten beslissen of het om tekst gaat, om een grafisch element of een achtergrondelement.