HAICu, een project voor toegang tot, koppeling en analyse van digitale erfgoedcollecties met behulp van kunstmatige intelligentie, ontving in 2023 een subsidie van 10,3 miljoen EUR van de Nederlandse Onderzoeksraad en ging in februari 2024 van start. Jelle Posthuma, Impact/Science journalist voor de Jantina Tammes School of Digital Society, Technology and AI, spreekt met Rosemarie Van der Veen-Oei, hoofd van de onderzoeksafdeling van de Nationale Bibliotheek van Nederland (KB), consortiumpartner, over het project.
Een erfenis van “CATCH”
De oorsprong van HAICu komt grotendeels voort uit Continuous Access to Cultural Heritage (CATCH), een 15-jarig onderzoeksprogramma dat wordt gefinancierd door de Nederlandse Onderzoeksraad en het Nederlandse ministerie van Onderwijs, Cultuur en Wetenschap.
'HAICu is niet gebaseerd op CATCH, maar veel mensen uit dezelfde gemeenschap zijn erbij betrokken', zegt Van der Veen-Oei. 'In Nederland heeft CATCH een belangrijke bijdrage geleverd aan onderzoek op het snijvlak van IT en erfgoedinstellingen. Later werden de geesteswetenschappen toegevoegd. Het doel van CATCH was om digitale collecties toegankelijk te maken.'
Voortbouwen op een unieke samenwerking
De door CATCH gefinancierde promovendi waren twee dagen per week gestationeerd bij erfgoedinstellingen, zegt Van der Veen-Oei. Als gevolg hiervan werkten ze buiten een academische omgeving, en over een periode van 15 jaar resulteerde dit in promovendi en postdocs met ervaring en kennis over de erfgoedsector, digitale collecties en de academische wereld. Met deze samenwerking zetten erfgoedinstellingen hun eerste stappen in de academische wereld. Het was een unieke samenwerking tussen de academische wereld en erfgoedinstellingen en het leverde een nieuw soort kennis en expertise op voor beide instellingen.
Het project was de eerste keer dat veel erfgoedinstellingen nauw samenwerkten met IT-onderzoekers. Van der Veen-Oei vervolgt: 'IT-onderzoekers hadden op hun beurt voor het eerst toegang tot de digitale collecties van erfgoedinstellingen. Opeens hadden ze grote hoeveelheden data tot hun beschikking om hun tools en algoritmes te trainen.'
Een volgend project, CATCHPlus, zocht naar manieren om de prototypes of demo's om te zetten in hulpmiddelen of instrumenten voor de praktijk. Uiteindelijk werden niet alle ontwikkelde prototypes of demo's daadwerkelijk in gebruik genomen door de erfgoedinstellingen en was het verbinden van digitale collecties nog niet voltooid. 'Met HAICu willen we nog een stap verder gaan. Dit keer echter met de toepassing van AI-technieken.'
Introductie van artificiële intelligentie
Onderzoekers en professionals van de erfgoedinstellingen die betrokken zijn bij CATCH wilden met de gemeenschap het opgebouwde project voortzetten en nieuwe AI-technieken inbrengen. Van der Veen-Oei merkt op dat AI zich al decennia ontwikkelt, maar dat AI tegenwoordig ook op een verantwoorde manier betekenis kan geven aan collecties. We wilden deze ontwikkelingen slim inzetten om onze collecties te ontsluiten, te koppelen en te analyseren.'
Erfgoedinstellingen zoals de Koninklijke Bibliotheek (KB) worden geconfronteerd met een toename van nieuwe data. De KB heeft momenteel ongeveer drie petabyte (drie miljard megabyte) aan digitale data, zegt Van der Veen-Oei. Tegen 2027 verwacht de bibliotheek meer dan vijf petabytes aan gegevens te hosten. Ter illustratie, één petabyte aan informatie komt overeen met een 1,8 kilometer hoge toren van gestapelde cd-rom-schijven zonder doos. "Daarvoor hebben we nieuwe instrumenten en technieken nodig om het gemakkelijk en eenvoudig te maken." Dat is waar het HAICu-project van start gaat.
Nieuwe perspectieven
Kunstmatige intelligentie biedt ook nieuwe perspectieven voor collecties. 'Wat vroeger heel normaal was, is tegenwoordig soms niet acceptabel. We kunnen AI gebruiken om meerdere perspectieven te tonen. Neem de term Zwarte Piet, die in het verleden in boektitels voorkomt maar tegenwoordig onderwerp van discussie is. Wij als KB zijn op zoek naar inzichten en manieren om deze metadata bias automatisch te detecteren.'
Tegelijkertijd voorziet AI de data van context. 'Het gaat erom hoe we erfgoedgegevens kunnen gebruiken om een transparante en betrouwbare reflectie op de werkelijkheid te bieden. Tijdens het zoeken krijg je ideeën: Neem een kijkje in deze collectie, of deze. Daarnaast worden bronnen in context geplaatst. Innovatielabs worden gebruikt om nieuwe ontwikkelingen binnen HAICu te testen.”
Multimodale benaderingen
In de afgelopen twee jaar is generatieve AI in bekendheid gegroeid via systemen zoals ChatGPT. 'Bij HAICu willen we deze zoekmethode ook gebruiken voor de collecties van erfgoedinstellingen.'
Multimodaliteit, of het gebruik van verschillende bronnen, speelt een grote rol.
'Binnen HAICu zijn de collecties van verschillende erfgoedinstellingen met elkaar verbonden. Het gaat niet alleen om tekst, maar ook om video, audio en ga zo maar door. Neem de dataset Delpher, een website met full-text Nederlandstalige gedigitaliseerde historische kranten, boeken, tijdschriften en kopieerbladen voor radionieuwsuitzendingen. Hoe mooi zou het zijn als we bijvoorbeeld de scans van kranten konden koppelen aan audiovisueel materiaal van het Nederlands Instituut voor Beeld en Geluid. In één zoekopdracht kunt u alle informatie verzamelen. Dat is waar het bij HAICu om draait.'
Meer informatie
HAICu wil verder gaan dan alleen het ontwikkelen en gebruiken van AI-technieken en -tools. Het project beoogt interdisciplinaire en institutionele samenwerking te bevorderen door middel van innovatielaboratoria en burgerwetenschappelijke projecten. Deze initiatieven zullen degenen betrekken die momenteel mogelijk niet actief betrokken zijn bij HAICu. Met deze inspanningen verwacht HAICu een vruchtbare voedingsbodem te bieden voor input en curatoriële diensten van alle belanghebbenden. Daarnaast is het consortium gemotiveerd om de langetermijnintegratie van HAICu-resultaten in partnerorganisaties en hun netwerken te waarborgen.
Maakt dit project je nieuwsgierig? Kijk op de website van HAICu voor vacatures en updates, waaronder een uitgebreid interview met een van de projectleiders van HAICu.
Word vandaag nog lid van de EuropeanaTech Community om op de hoogte te blijven van de laatste ontwikkelingen op het gebied van onderzoek en ontwikkeling in de sector cultureel erfgoed, te netwerken met collega's en samen te werken!
