Metoder från området artificiell intelligens (AI) och maskininlärning (ML) har bidragit till att tänja på tekniska gränser på olika områden, bland annat inom kulturarvssektorn (delrapporten från EuropeanaTech AI i förhållande till GLAMs Task Force och AI4LAM-initiativet ger några exempel). För att uppmuntra innovation på detta område tillkännagav EuropeanaTech för några veckor sedan sin första utmaning för Europeana AI/ML Datasets. Med denna nya verksamhet ville vi stimulera skapandet av dataset för GLAM-sektorn som kan användas för AI/ML, med hjälp av de rika kulturarvsresurser som finns tillgängliga i Europeana. Vi hoppas att tillgången till sådana dataset skulle kunna bidra till att främja mer engagemang med digitala kulturarvsdata inom AI/ML och stödja överföringen av de senaste framstegen inom AI/ML till området digital kuratering och analys av kulturarvsinnehåll.
Vi mottog totalt fem förslag, som noggrant granskades av medlemmarna i EuropeanaTechs styrgrupp och AI i förhållande till arbetsgruppen för GLAM. De bedömde förslagen på grundval av deras relevans för GLAM-sektorn (25 %), relevans för AI/ML (25 %), förhållande till Europeana (30 %) och tydlighet i beskrivningen och arbetsplanen (20 %).
Tillkännagivande av vinnarna
Namngivna enheter i arkeologiska texter
Detta förslag från ett team baserat vid universitetet i Neapel "L'Orientale" syftar till att skapa ett dataset för Named Entity Recognition (NER) och Term Extraction for archeological terms in Italian and English i Europeana Archeology collection. NER är processen att identifiera egennamn som personnamn eller platser i ostrukturerad text. Termutvinning är liknande, men fokuserar på att hitta specialiserade termer, i detta fall från arkeologi domänen. Ordförråd som Getty och CIDOC CRM kommer att övervägas. Det slutliga datasetet skulle kunna användas för utveckling och utvärdering av AI/ML-baserad teknik för NER på det arkeologiska området.
Granskarna uppskattade särskilt förslagets tydliga struktur och mognadsgrad, för vilken ett simulerat dataset redan hade gjorts med hjälp av Europeanas API:er för att testa den föreslagna strategin. Den tvåspråkiga aspekten och bristen på liknande öppna resurser för arkeologifältet sågs också som särskilt värdefull.
Zac Grace
Detta förslag från en student vid Ecole Nationale d'Ingénieurs de Tarbes syftar till att skapa pixelmasker för semantisk segmentering, genom manuell anteckning av bilddata i Europeana Fashion-samlingen. Detta innebär till exempel att när en bild analyseras markeras de relevanta modeelementen (skjorta, byxor, skor) i bilden med sina pixelkonturer. Sådana data kan användas för att träna ett automatiserat segmenteringssystem.

Granskarna gillade den tydliga omfattningen och förståelsen av det arbete som krävs för att genomföra förslaget. De trodde också att det hade stor potential för tillämpning över olika samlingar.
De omtvistade sammanhangen Corpus
Detta gemensamma förslag från KNAW Humanities Cluster och Centrum Wiskunde & Informatica i Nederländerna vill etablera en kommenterad korpus av omtvistade termer i sitt sammanhang (ConConCor) från nederländska tidningar i Europeana. Dessa kan sedan användas för att bootstrap och utvärdera (halv)automatiska metoder för att upptäcka sådana termer i kulturarvssamlingar. Tvistiga termer här betyder de ord eller fraser som antyder någon (implicit eller explicit) bias mot eller mot en grupp, händelse eller på annat sätt.
Granskare värdesatte hur detta förslag syftar till att ta itu med ett centralt mål i utmaningen, upptäckten av etiska frågor och snedvridningar som är inneboende i digitaliserade kulturarvssamlingar.
Tre stipendier på 2 500 euro vardera kommer att ställas till vinnarnas förfogande för att de ska kunna genomföra sina förslag och leverera uppgifterna senast i slutet av juni 2021.
Läs mer
Vi vill tacka alla som har lagt fram ett förslag till denna utmaning för deras hårda arbete och utmärkta idéer. Vi ser fram emot genomförandet av de vinnande projekten och hoppas att en ny omgång kommer att öppnas i framtiden för dem som inte lyckades den här gången!
Om du vill höra om fler möjligheter som detta och nätverka och samarbeta med tvärvetenskapliga tekniska proffs från hela världen, gå med i EuropeanaTech genom Europeana Network Association och följ communityn på Twitter.
Det här inlägget redigerades den 16 april 21 för att återspegla den förlängda tidsfristen för vinnarna att leverera sina dataset.
