Methoden op het gebied van kunstmatige intelligentie (AI) en machinaal leren (ML) hebben bijgedragen tot het verleggen van technologische grenzen op verschillende gebieden, onder meer in de sector cultureel erfgoed (het tussentijds verslag van de EuropeanaTech AI met betrekking tot de GLAM-taskforce en het AI4LAM-initiatief geven enkele voorbeelden). Om innovatie op dit gebied aan te moedigen, heeft EuropeanaTech enkele weken geleden haar eerste uitdaging voor Europeana AI/ML-datasets aangekondigd. Met deze nieuwe activiteit wilden we het creëren van datasets voor de GLAM-sector stimuleren die kunnen worden gebruikt voor AI / ML, op basis van de rijke bronnen van cultureel erfgoed die beschikbaar zijn in Europeana. We hopen dat de beschikbaarheid van dergelijke datasets kan bijdragen tot meer betrokkenheid bij gegevens over digitaal cultureel erfgoed in AI/ML en de overdracht van recente vooruitgang op het gebied van AI/ML naar het gebied van digitale curatie en analyse van inhoud van cultureel erfgoed kan ondersteunen.
We hebben in totaal vijf voorstellen ontvangen, die zorgvuldig zijn beoordeeld door leden van de EuropeanaTech-stuurgroep en AI in verband met de GLAM-taskforce. Zij beoordeelden de voorstellen op hun relevantie voor de GLAM-sector (25%), relevantie voor AI/ML (25%), relatie tot Europeana (30%) en duidelijkheid van de beschrijving en het werkplan (20%).
Bekendmaking van de winnaars
Genoemde entiteiten in archeologische teksten
Dit voorstel van een team van de Universiteit van Napels 'L'Orientale' is gericht op het creëren van een dataset voor Named Entity Recognition (NER) en Term Extraction voor archeologische termen in het Italiaans en Engels in de Europeana Archeology collectie. NER is het proces van het identificeren van eigennamen zoals persoonsnamen of locaties in ongestructureerde tekst. Term Extraction is vergelijkbaar, maar richt zich op het vinden van gespecialiseerde termen, in dit geval uit het archeologiedomein. Woordenlijsten zoals Getty en CIDOC CRM zullen worden overwogen. De definitieve dataset kan worden gebruikt bij de ontwikkeling en evaluatie van op AI/ML gebaseerde technologieën voor NER op archeologisch gebied.
De beoordelaars waardeerden met name de duidelijke structuur en de maturiteit van het voorstel, waarvoor al een modeldataset was gemaakt met behulp van de API’s van Europeana om de voorgestelde aanpak te testen. Het tweetalige aspect en de schaarste van soortgelijke open bronnen voor het archeologieveld werden ook als bijzonder waardevol beschouwd.
Zac Grace
Dit voorstel van een student van de Ecole Nationale d'Ingénieurs de Tarbes heeft tot doel pixelmaskers te maken voor semantische segmentatie, door handmatige annotatie van beeldgegevens in de Europeana Fashion-collectie. Dit betekent bijvoorbeeld dat wanneer een afbeelding wordt geanalyseerd, de relevante mode-elementen (shirt, broek, schoenen) in de afbeelding worden gemarkeerd met hun pixelomtrek. Dergelijke gegevens kunnen worden gebruikt voor het trainen van een geautomatiseerd segmentatiesysteem.

De beoordelaars waren ingenomen met de duidelijke reikwijdte en het begrip van de werkzaamheden die nodig zijn om het voorstel uit te voeren. Ze dachten ook dat het veel potentieel had voor toepassing in verschillende collecties.
De controversiële contexten Corpus
Dit gezamenlijke voorstel van het KNAW Humanities Cluster en het Centrum Wiskunde & Informatica in Nederland wil een geannoteerd corpus van controversiële termen in context (ConConCor) uit Nederlandse kranten in Europeana tot stand brengen. Deze kunnen vervolgens worden gebruikt om (semi-)automatische methoden voor het opsporen van dergelijke termen in cultureel erfgoedcollecties te bootstrapen en te evalueren. Controversiële termen hier betekent die woorden of zinnen die suggereren van een aantal (impliciete of expliciete) vooroordelen ten opzichte van of tegen een groep, gebeurtenis of anderszins.
Beoordelaars waardeerden de manier waarop dit voorstel een belangrijk doel in de uitdaging wil aanpakken, namelijk het opsporen van ethische kwesties en vooroordelen die inherent zijn aan gedigitaliseerde collecties van cultureel erfgoed.
Drie stipendia van elk 2 500 EUR zullen ter beschikking worden gesteld van de winnaars om hun voorstellen uit te voeren en de bijbehorende datasets uiterlijk eind juni 2021 te leveren.
Meer informatie
We willen graag iedereen bedanken die een voorstel voor deze uitdaging heeft ingediend voor hun harde werk en uitstekende ideeën. We kijken uit naar de uitvoering van de winnende projecten en hopen dat er in de toekomst nog een ronde zal worden geopend voor degenen die deze keer niet succesvol waren!
Als u meer wilt weten over dit soort mogelijkheden en wilt netwerken en samenwerken met multidisciplinaire technische professionals van over de hele wereld, sluit u dan aan bij EuropeanaTech via de Europeana Network Association en volg de community op Twitter.
Dit bericht is bewerkt op 16/04/21 om de verlengde deadline voor winnaars om hun datasets te leveren weer te geven.
