HAICu, ett projekt för att få tillgång till, länka och analysera samlingar av digitalt kulturarv med hjälp av artificiell intelligens, fick ett bidrag på 10,3 miljoner euro från det nederländska forskningsrådet 2023 och inleddes i februari 2024. Jelle Posthuma, Impact/Science journalist för Jantina Tammes School of Digital Society, Technology and AI, talar med Rosemarie Van der Veen-Oei, chef för forskningsavdelningen vid National Library of the Netherlands (KB), konsortiepartner, om projektet.
Ett arv från Catch
HAICus ursprung härrör till stor del från Continuous Access to Cultural Heritage, eller CATCH, ett 15-årigt forskningsprogram som finansieras av det nederländska forskningsrådet och det nederländska ministeriet för utbildning, kultur och vetenskap.
"HAICu är inte baserat på Catch, men många människor från samma samhälle är inblandade", säger Van der Veen-Oei. I Nederländerna gav Catch ett viktigt bidrag till forskningen i skärningspunkten mellan IT- och kulturarvsinstitutioner. Därefter tillkom humaniora. CATCHs mål var att göra digitala samlingar tillgängliga.
Bygger på ett unikt partnerskap
De doktorander som finansieras av CATCH var stationerade vid kulturarvsinstitutioner två dagar i veckan, säger Van der Veen-Oei. Som ett resultat arbetade de utanför en akademisk miljö, och under en period av 15 år resulterade detta i doktorer och postdoktorer med erfarenhet och kunskap om arvssektorn, digitala samlingar och den akademiska världen. Med detta samarbete tog kulturarvsinstitutioner sina första steg in i akademin. Det var ett unikt partnerskap mellan akademi och kulturarvsinstitutioner, och det producerade en ny typ av kunskap och expertis för båda institutionerna.
Projektet var första gången som många av kulturarvsinstitutionerna hade ett nära samarbete med IT-forskare. Van der Veen-Oei fortsätter: "IT-forskare hade i sin tur tillgång till kulturarvsinstitutionernas digitala samlingar för första gången. De hade plötsligt stora mängder data till sitt förfogande för att träna sina verktyg och algoritmer.
Ett efterföljande projekt, CATCHPlus, letade efter sätt att konvertera prototyper eller demos till verktyg eller instrument för övning. I slutändan togs inte alla utvecklade prototyper eller demos i bruk av kulturarvsinstitutionerna, och sammankopplingen av digitala samlingar hade ännu inte slutförts. Med HAICu vill vi gå ett steg längre. Men den här gången med tillämpning av AI-tekniker.
Införande av artificiell intelligens
Forskare och yrkesverksamma från de kulturarvsinstitutioner som är involverade i CATCH ville fortsätta med det samhälle som projektet byggde upp och föra in nya AI-tekniker. Van der Veen-Oei konstaterar att AI har utvecklats i årtionden, men att AI i dag också kan ge mening åt samlingar på ett ansvarsfullt sätt. Vi ville använda denna utveckling på ett intelligent sätt för att komma åt, länka och analysera våra samlingar.
Kulturarvsinstitutioner som Nederländernas nationalbibliotek (KB) står inför en ökning av nya data. KB har för närvarande cirka tre petabyte (tre miljarder megabyte) digital data, säger Van der Veen-Oei. År 2027 räknar biblioteket med att vara värd för över fem petabyte data. För att illustrera, motsvarar en petabyte information ett 1,8 kilometer högt torn av staplade CD-ROM-skivor utan en låda. ”För det behöver vi nya verktyg och tekniker för att göra det enkelt och smidigt.” Det är där HAICu-projektet kommer in.
Nya perspektiv
Artificiell intelligens ger också nya perspektiv på samlingar. Det som brukade vara ganska normalt i det förflutna är ibland inte acceptabelt nuförtiden. Vi kan använda AI för att visa flera perspektiv. Ta termen Zwarte Piet (Black Pete), som förekommer i boktitlar i det förflutna men är föremål för debatt i dessa dagar. Vi som KB letar efter insikter och sätt att automatiskt upptäcka denna metadata bias.
Samtidigt ger AI data med sammanhang. Det handlar om hur vi kan använda kulturarvsdata för att ge en transparent och tillförlitlig reflektion över verkligheten. När du söker får du idéer: Ta en titt i den här kollektionen, eller den här. Dessutom sätts källorna i sitt sammanhang. Innovationslaboratorier används för att testa ny utveckling inom HAICu.”
Multimodala metoder
Under de senaste två åren har generativ AI ökat i betydelse genom system som ChatGPT. På HAICu vill vi använda denna sökmetod även för kulturarvsinstitutioners samlingar.
Multimodalitet, eller att använda olika källor, spelar en stor roll.
Inom HAICu är olika kulturarvsinstitutioners samlingar sammanlänkade. Det handlar inte bara om text, utan också om video, ljud och så vidare. Ta datasetet Delpher, en webbplats som ger fulltext nederländskspråkiga digitaliserade historiska tidningar, böcker, tidskrifter och kopieringsblad för radionyhetssändningar. Hur underbart skulle det inte vara om vi kunde koppla samman skanningar av tidningar med audiovisuellt material från det nederländska institutet för ljud och bild (Beeld & Geluid), till exempel. I en sökning kan du samla all information. Det är vad HAICu handlar om.
Läs mer
HAICu strävar efter att gå längre än att bara utveckla och använda AI-tekniker och AI-verktyg. Projektet syftar till att främja tvärvetenskapligt och institutionellt samarbete genom innovationslaboratorier och medborgarvetenskapliga projekt. Dessa initiativ kommer att engagera dem som kanske inte är aktivt involverade i HAICu för närvarande. Med dessa ansträngningar förväntar sig HAICu att tillhandahålla en bördig grogrund för input och curatoriella tjänster från alla intressenter. Dessutom är konsortiet motiverat att säkerställa en långsiktig integrering av HAICu-resultat i partnerorganisationer och deras nätverk.
Fångar det här projektet din nyfikenhet? Se HAICus webbplats för kommande lediga tjänster och uppdateringar, bland annat en omfattande intervju med en av HAICus projektledare.
För att hålla dig uppdaterad om den senaste utvecklingen inom forskning och utveckling inom kulturarvssektorn, nätverka med kollegor och samarbeta, gå med i EuropeanaTech Community idag!
