EuropeanaTech Challenge for Europeana AI/ML-datasæt: Vi annoncerer vinderne!

Offentliggjort 22. marts 2021 ved

Clemens Neudecker (Berlin State Library)

Metoder inden for kunstig intelligens (AI) og maskinlæring (ML) har bidraget til at flytte teknologiske grænser på forskellige områder, herunder i kulturarvssektoren (den foreløbige rapport fra EuropeanaTech AI i forbindelse med GLAM-taskforcen og AI4LAM-initiativet indeholder nogle eksempler). For at tilskynde til innovation på dette område bebudede EuropeanaTech for et par uger siden sin første udfordring for Europeana AI/ML-datasæt. Med denne nye aktivitet ønskede vi at stimulere oprettelsen af datasæt til GLAM-sektoren, der kan anvendes til kunstig intelligens/hvidvaskning af penge, ved at trække på de rige kulturarvsressourcer, der er tilgængelige i Europeana. Vi håber, at tilgængeligheden af sådanne datasæt kan bidrage til at fremme et større engagement i digitale kulturarvsdata inden for kunstig intelligens/hvidvask og støtte overførslen af de seneste fremskridt inden for kunstig intelligens/hvidvask til området for digital kuratering og analyse af kulturarvsindhold.

Vi modtog i alt fem forslag, som blev nøje gennemgået af medlemmer af EuropeanaTech-styringsgruppen og AI i forbindelse med GLAM-taskforcen. De vurderede forslagene på grundlag af deres relevans for GLAM-sektoren (25 %), relevans for AI/ML (25 %), relation til Europeana (30 %) og klarhed i beskrivelsen og arbejdsplanen (20 %).

Annoncering af vinderne

Navngivne enheder i arkæologiske tekster

Dette forslag fra et team baseret på universitetet i Napoli 'L'Orientale' har til formål at skabe et datasæt for Navngivet Entity Recognition (NER) og Term Extraction for arkæologiske termer på italiensk og engelsk i Europeana Archeology samling. NER er processen med at identificere egennavne som personnavne eller steder i ustruktureret tekst. Term Extraction er ens, men fokuserer på at finde specialiserede termer, i dette tilfælde fra det arkæologiske domæne. Ordforråd som Getty og CIDOC CRM vil blive overvejet. Det endelige datasæt kan anvendes til udvikling og evaluering af AI/ML-baserede teknologier til NER på det arkæologiske område.

Anmelderne satte især pris på forslagets klare struktur og modenhed, for hvilket der allerede blev lavet et simuleret datasæt ved hjælp af Europeanas API'er til at teste den foreslåede tilgang. Det tosprogede aspekt og manglen på lignende åbne ressourcer til arkæologiområdet blev også betragtet som særligt værdifulde.

Zac Grace

Dette forslag fra en studerende ved Ecole Nationale d'Ingénieurs de Tarbes har til formål at skabe pixelmasker til semantisk segmentering gennem manuel anmærkning af billeddata i Europeana Fashion-samlingen. Det betyder f.eks., at når et billede analyseres, markeres de relevante modeelementer (skjorte, bukser, sko) på billedet med deres pixelkonturer. Sådanne data kan bruges til træning af et automatiseret segmenteringssystem.

Anmelderne kunne godt lide det klare omfang og den klare forståelse af det arbejde, der kræves for at gennemføre forslaget. De mente også, at det havde et stort potentiale for anvendelse på tværs af forskellige samlinger.

De omstridte sammenhænge Corpus

Dette fælles forslag fra KNAW Humanities Cluster og Centrum Wiskunde & Informatica i Holland ønsker at etablere et kommenteret korpus af omstridte termer i kontekst (ConConConCor) fra hollandske aviser i Europeana. Disse kan derefter bruges til at bootstrap og evaluere (semi-)automatiske metoder til at opdage sådanne udtryk i kulturarvssamlinger. Omstridte udtryk her betyder de ord eller sætninger, der antyder nogle (implicit eller eksplicit) bias mod eller imod en gruppe, begivenhed eller på anden måde.

Anmelderne værdsatte, hvordan dette forslag har til formål at tackle et centralt mål i udfordringen, afsløring af etiske spørgsmål og skævheder, der er iboende i digitaliserede kulturarvssamlinger.

Tre stipendier på hver 2 500 EUR vil blive stillet til rådighed for vinderne med henblik på at gennemføre deres forslag og levere de relevante datasæt inden udgangen af juni 2021.

Læs mere

Vi vil gerne udtrykke vores taknemmelighed over for alle, der har indsendt et forslag til denne udfordring for deres hårde arbejde og fremragende ideer. Vi ser frem til gennemførelsen af de vindende projekter og håber, at en anden runde vil åbne i fremtiden for dem, der ikke var en succes denne gang!

Hvis du gerne vil høre om flere muligheder som dette og netværke og samarbejde med tværfaglige tekniske fagfolk fra hele verden, kan du tilmelde dig EuropeanaTech gennem Europeana Network Association og følge fællesskabet på Twitter.

Dette indlæg blev redigeret den 16/04/21 for at afspejle den forlængede frist for vindere til at levere deres datasæt.

EuropeanaTech Challenge for Europeana AI/ML-datasæt: Vi annoncerer vinderne!

Del

Annoncering af vinderne

Læs mere

Opdag relateret indhold