Wat is ondertiteling met spraakherkenning?

Voor live-ondertiteling gebruikt teletekstondertiteling sinds 2001 spraakherkenningssoftware. Die zet gesproken tekst om in geschreven tekst, in dit geval in ondertitels.

Waarom spraakherkenning?

Tot in 2001 werden bij live-reportages de titels door een snel typende ondertitelaar ingetikt. Die titels werden hem of haar gedicteerd door een andere ondertitelaar. Hoe snel de typist(e) ook was, de achterstand bleef groot.

Intussen maakte in Vlaanderen de spraaktechnologie via Lernout & Hauspie een spectaculaire entrée en opgang. De eerste testen waren zeer bemoedigend en voorspelden niets dan goeds. Op 8 april 2001 werd de Ronde van Vlaanderen voor het eerst ondertiteld met spraakherkenning.

De voordelen zijn duidelijk. Na een relatief korte training is er al een goed resultaat. Bovendien werkt de software altijd verder op het laatste bereikte resultaat. Bij elke nieuwe sessie worden de verbeteringen bijgehouden. Er hoeft dus niet elke dag geoefend te worden, om het systeem op peil te houden. En doordat het een technologie is die in volle ontwikkeling is, wordt de software ook alsmaar krachtiger.

Hoe en wanneer wordt spraakherkenning gebruikt?

Teletekstondertiteling gebruikt spraakherkenning bij elke live-uitzending: sportreportages, evenementen, live-interventies in Het journaal, enzovoort. De VRT-ondertitelaars (respeakers) zijn met spraakherkenning vertrouwd, zodat er ook bij alle onvoorziene situaties iemand kan worden ingezet.

In bijna alle gevallen wordt de live-ondertiteling door twee personen uitgevoerd. Eén respeaker spreekt de titels in, een tweede zendt uit na eventuele foutjes verbeterd te hebben. Bij onduidelijke uitspraak kan de software immers soms een woord verkeerd verstaan. Als het om lange reportages gaat, kunnen beiden elkaar ook aflossen. Bij eenvoudige sportreportages, zoals tennis, zendt de respeaker zelf de titels uit. Hij/zij heeft nog voldoende tijd om zelf de titels na te kijken.

Kan de spraakherkenning niet meteen de gesproken tekst omzetten, zonder respeaker?

Nee, want het systeem verstaat alleen in voldoende mate de stemmen waarmee het geoefend heeft. Elke respeaker heeft dus zijn eigen 'profiel' dat het systeem begrijpt. De software zal een willekeurig iemand die duidelijk en correct spreekt wel grotendeels juist weergeven, maar niet met dezelfde accuraatheid. Bovendien zal elk achtergrondgeluid de verstaanbaarheid verstoren, en als mensen door elkaar praten, is rechtstreekse herkenning helemaal niet mogelijk.

Wordt de techniek verder ontwikkeld?

We mogen ons gelukkig prijzen dat er een spraakherkenningssysteem bestaat dat Nederlands gebruikt. Dat is niet evident voor een relatief klein taalgebied als het onze. Voor het Zweeds bijvoorbeeld bestaat het (nog) niet. Er wordt gezocht naar een systeem van herkenning onafhankelijk van sprekers, maar dat staat nog maar in zijn kinderschoenen.

Ook aan de werkwijze van het tolken, want dat is het in feite, wordt er voortgewerkt. Daarbij zijn universiteiten en tolkopleidingen betrokken. Het is de bedoeling het systeem nog krachtiger te maken, zodat op termijn de uitzender/corrector wellicht overbodig wordt en de ondertitels nog dichter 'op de bal' zitten.

Gerelateerd