Foto Nationaal Archief

Het Nationaal Archief heeft de laatste jaren veel gedigitaliseerd. Historische handgeschreven archieven zijn als plaatjes beschikbaar op internet (transcripties). Maar de informatie in deze documenten is niet doorzoekbaar. Daar wilde het Nationaal Archief met deze oproep verandering in brengen. Het doel was het vinden van oplossingen waardoor de grote hoeveelheid transcripties voor een onderzoeker handelbaar wordt. Bij het full-text doorzoeken van de transcriptiedata krijgt de onderzoeker een overvloed aan resultaten te verwerken. Hoe helpt kunstmatige intelligentie (AI) onderzoekers om de data slim te bewerken, indexeren, ordenen en verbinden?

Zowel Clean Code als het samenwerkingsverband IJSBEER kwamen met goede voorstellen.

Project Clean Code - Taalmodellen en search voor historisch Nederlands

Het voorstel van Clean Code was breed: het ontwikkelen van een op maat gemaakte gebruikersinterface, de inrichting van een zoekmachine, het herkennen van namen in de teksten én het verbeteren van fouten in de oude teksten. Bovendien waren de archiefwereld en het historisch Nederlands nieuwe vakgebieden voor Clean Code. In een intensieve prototype fase van 4 maanden heeft het bedrijf als 1 van de 3 uitgekozen partijen verschillende nieuwe en oudere AI-technieken verkend en toegepast op de historische teksten.

Na de SBIR heeft het Nationaal Archief Clean Code opdracht gegeven voor het verder ontwikkelen van de user interface, de inrichting van de zoekmachine en het publiceren van Linked Open Data. Er wordt samengewerkt met een andere partij die ook meedeed met deze SBIR. Op dit moment is Clean Code als kleine partij met een centrale rol betrokken in een innovatief project van het Nationaal Archief.

Clean Code en SBIR

Clean Code geeft aan alleen met SBIR een innovatieve bijdrage te kunnen leveren. Het werk is niet alleen relevant voor het huidige project, maar wordt ook onderdeel van de informatie-infrastructuur van het Nationaal Archief. Er zijn veel mogelijkheden voor de verdere ontwikkeling van de (open source) software bij het Nationaal Archief en andere archieven. Clean Code is dan ook bezig met het verkennen van de ervaringen met de AI-technieken die tijdens de prototypefase zijn opgedaan.

Met SBIR is aan de markt voorgelegd hoe grote collecties historische documenten toegankelijk kunnen worden gemaakt voor een breed publiek. De SBIR is een onderdeel van een groter project van het Nationaal Archief waarin de handschriften van scans van onder andere het VOC archief automatisch worden herkend met het pakket Transkribus. SBIR is een mooi instrument voor het vinden van innovatieve partijen die anders misschien niet op de radar stonden. Het maakt het mogelijk om kleine partijen laagdrempelig mee te laten doen in een aanbesteding in publieke IT-projecten. Goed voor deze projecten én de kleine partijen.

Project Picturae ICT B.V. - IJSBEER Historische transcripties toegankelijk maken met AI

2 miljoen scans van historische teksten uit het Nationaal- en Noord-Hollands Archief en Regionaal Historische Centra zijn beschikbaar gemaakt als transcripties dankzij de Handwritten Text Recognition (HTR) van Transkribus. Zoeken in complete teksten is nu mogelijk, maar hoe vind je de juiste resultaten in een oerwoud aan data? Dat vergt een slimme zoektechnologie die gebruikmaakt van AI. De organisaties Picturae, Aincient en Sioux Technologies werkten samen aan een oplossing. Samen vormen zij team IJsbeer en hebben zij kennis over erfgoedportals, Transkribus, historische teksten, archieven en AI en co-creatie met de klant en gebruikers. In februari 2020 leverden zij een succesvol prototype zoekomgeving op en werken nu aan de uitvoering van een transcriptiebeheerplatform inclusief AI-pipeline voor een productie-omgeving.

Project Clean Code - Taalmodellen
Taalmodellen en search voor historisch Nederlands van CleanCode
Project Clean Code - Taalmodellen

IJSBEER en SBIR

De innovatieve samenwerking van IJSBEER tussen 3 heel verschillende bedrijven heeft zich inmiddels bewezen. Ieder werkt vanuit zijn eigen domeinkennis en vult elkaar aan. Aincient vanuit kennis van AI, de erfgoedsector en projectmanagement, Sioux Technologies vanuit diepgaande kennis van AI en mathware en Picturae (indiener) vanuit kennis van de erfgoedsector en commerciële product/servicesontwikkeling. Dankzij een succesvolle eerste fase in 2019 ontwikkelt IJSBEER nu een prototype zoekomgeving voor locatiegericht zoeken in historische archieven. Hier wordt het prototype van het Nationaal Archief verder uitgebreid, met een focus op historische locaties.

Liesbeth Keijser Nationaal Archief
Liesbeth Keijser, Projectleider digitalisering, Nationaal Archief Fotografie Anne Reitsma

Terugblik opdrachtgever Nationaal Archief

Liesbeth Keijser, projectleider digitalisering: “Het Nationaal Archief wilde een innovatief product laten ontwikkelen. Het ministerie OCW informeerde ons over de mogelijkheid van SBIR. Wat ons aansprak was om gebruik te maken van de innovatiekracht van de markt. SBIR heeft 3 mooie prototypes opgeleverd, 2 van de partijen uit SBIR hebben we gecontracteerd voor de doorontwikkeling. SBIR heeft de vorming van interessante samenwerkingsverbanden gestimuleerd. Kleine innovatieve bedrijfjes die samenwerkten met een gevestigde marktpartij”.

“Het Nationaal Archief heeft een grote digitaliseringsambitie. Elk jaar worden 15 miljoen pagina’s van historische archieven gescand. We willen deze scans doorzoekbaar maken met kunstmatige intelligentie. We trainen software om de handschriften op de scans automatisch te transcriberen, oftewel om te zetten naar tekst die de computer kan lezen. Onderwerp van onze SBIR was de ontwikkeling van een slimme projectwebsite om te zoeken in de transcripties. Van de ontwikkelde prototypes hebben we geleerd wat de mogelijkheden zijn en hoe we de doorontwikkeling het beste konden uitvoeren. De doorontwikkeling van de projectwebsite is nog in volle gang, de oplevering staat gepland voor mei 2021. Onze ervaring is dat je door SBIR andere marktpartijen en samenwerkingsverbanden aantrekt die met slimme oplossingen komen.”

Gegevens SBIR oproep Historische transcripties toegankelijk met AI voor Nationaal Archief

Periode

Augustus - september 2019

Opdrachtgever

Het Ministerie van Onderwijs, Cultuur en Wetenschap (OCW),Nationaal Archief (NA) en het Ministerie van Economische Zaken en Klimaat (EZK)

Budget

€ 200.000 voor het ontwikkelen van 3 prototypes. Het maximale bedrag per prototype is € 66.666. Het Nationaal Archief fase 1 zelf doorlopen.

SDG’s

9.   Industrie, Innovatie en Infrastructuur
16. Vrede, justitie en sterke publieke diensten