IMPACT Congres Koninklijke Bibliotheek 26 juni 2012

IMPACT is een Europees project om tot verbetering van OCR (herkenning van tekst) in digitaliseringsprojecten te komen.

Het project is nu afgerond, maar gaat verder als Expertisecentrum: http://digitisation.eu

De resultaten van het project zijn divers en veel. Voorop stond verbetering van de tekstherkenning en herkenning van oude lettertypen. Zo kan men door toepassing van de IMPACT vernieuwingen nu 15% meer woorden vinden in de 17e eeuwse Nederlandse kranten. Een aantal zaken lijken me van belang.

1. Er zijn een hele reeks tools gemaakt die gedeeltelijk vrij beschikbaar zijn (diverse licenties voor niet-commercieel gebruik)

2. Bestaande OCR engines, waaronder de overal gebruikte ABBYY Finereader engine, zijn verbeterd met de resulaten van het project. Dat betreft dus vooral verbeteringen aan de lay out en tekst herkenning.  Daarnaast ondersteunt ABBYY nu directe export naar het ALTO lay out formaat.

3. We kunnen onze digitaliseerder ook wijzen op dit project en vragen om bepaalde vernieuwingen in hun workflow op te nemen.

4. Men kan lid worden van het Centre of Competence en bepaalde diensten afnemen voor gereduceerde prijzen

Wat betreft de tools zijn er een aantal die ik wil noemen.

  • een tool om metadata van de titelpagina te extraheren
  • een rule set om een inhoudsopgave te extraheren uit een boek
  • twee webplatforms voor correctie van ocr door gebruikers
  • historische lexica, spellingsvariaties, personen, naam en organisatie entities voor Nederlands en 8 andere talen
  • een tool om de resultaten van OCR te evalueren

Een interessant project, dat zoveel bevat dat het overzicht en de relaties tussen de onderdelen soms wat onduidelijk zijn. Daarvoor is een webplatform ontwikkeld dat ik echter nog niet gevonden heb (komt later dit jaar als open source set).