EU Datathon je vsakoletni natečaj, ki ljubiteljem odprtih podatkov in razvijalcem aplikacij z vsega sveta omogoča, da pokažejo potencial odprtih podatkov, pridobijo mednarodno prepoznavnost za svoje inovativne zamisli in se potegujejo za svoj delež v skupnem nagradnem skladu v višini 200 000 EUR in nagrado po izboru javnosti. Vabljeni so, da uporabijo uradni portal za evropske podatke data.europa.eu, ki ga upravlja Urad za publikacije Evropske unije.
Z naborom podatkov Europeana.eu, ki je bil letos objavljen na data.europa.eu, bi lahko zbiranje metapodatkov približno 4 000 ustanov za varstvo kulturne dediščine, ki zagotavljajo vsebine Europeani, koristilo tudi predlogom in aplikacijam, zasnovanim za natečaj, za njihove vnose. Europeana je kot uradni partner natečaja k sodelovanju v EU Datathon povabila raziskovalce, univerzitetne profesorje in študente družboslovnih in humanističnih ved ter računalništva in informatike.
Po dveh krogih predizbire 156 prijav iz 38 držav je bila ekipa, ki razvija aplikacijo na podlagi podatkovnega niza Europeana.eu, ena od 12 finalistov in je v okviru izziva št. 4 prejela nagrado v višini 7 000 EUR: „Evropa, pripravljena na digitalno dobo“ na slovesni podelitvi nagrad, ki je potekala 20. oktobra 2022 v Bruslju. Ekipo sestavlja profesorica Johanna Monti; raziskovalka Maria Pia di Buono; ter dva doktorska študenta, Gennaro Nolano in Giulia Speranza. Johanna Monti nam pripoveduje o izkušnji.
Ali nam lahko poveste o aplikaciji, ki ste jo razvili, in postopku njenega ustvarjanja?
Razvili smo Maggie, klepetalni robot v realnem času, ki deluje kot virtualni asistent, ki ljudem pomaga dostopati do evropskih kulturnih vsebin in jih odkrivati. Ljudje lahko komunicirajo z Maggie prek vprašanj o naravnem jeziku in se sprašujejo o evropski kulturni dediščini.
Glavna ideja Maggie je izkoriščanje metodologij umetne inteligence (AI) in obdelave naravnega jezika (NLP) za razvoj aplikacije, osredotočene na uporabnika, ki omogoča dostop do večjezičnih kulturnih vsebin in njihovo odkrivanje. Predvideno občinstvo Maggie je zelo raznoliko; aplikacija prilagaja vsebino znanju in interesom uporabnikov, da bi zadovoljila različne potrebe po informacijah, od študentov do strokovnjakov.
Maggie je rezultat več kot desetletja raziskovalnih dejavnosti, ki so se začele leta 2012 z našimi prvimi eksperimenti na področju medjezikovnega pridobivanja informacij o kulturni dediščini. Po tem je več mejnikov zaznamovalo našo pot do Maggie, vključno z ustanovitvijo raziskovalne skupine UNIOR NLP Univerze v Neaplju L'Orientale leta 2016 in več projekti od leta 2019 do leta 2021, vključno s projektom SMACH (Semantični večjezični dostop do kulturne dediščine), projektom ArchaeoTerm, ki ponuja vir arheoloških izrazov, ki so na voljo v okviru projekta YourTerm CULT, in projektom NEAT (Name Entities in Archaeological Texts).
Zakaj ste se odločili za uporabo nabora podatkov Europeana.eu?
Naša raziskovalna skupina se je vedno zavzemala za to, da bi bile kulturne vsebine lahko dostopne vsem, in sicer z razvojem sistemov in aplikacij za kulturno dediščino. V tem smislu smo že izkoristili evropske odprte podatke (v obliki podatkov s spletne strani Europeane) v več delih, katerih cilj je izboljšati trenutne najsodobnejše naloge obdelave naravnega jezika za boljši dostop do vsebin kulturne dediščine.
V vseh teh primerih so jedro podatkov, ki smo jih uporabili, predstavljali odprti podatki, pridobljeni iz API Europeana Search, kar omogoča enostaven dostop do zbirnih podatkov in njihovo ponovno uporabo, hkrati pa zagotavlja visoko kakovost podatkov in njihovo večjezičnost. Čeprav v prejšnjih poskusih večina informacij, opisanih v podatkovnem modelu Europeane (kot so podatki o lokalizaciji, avtorjih in temah), ni bila uporabljena za razvoj Maggie, v celoti izkoriščamo bogat vir informacij, ki ga ponuja Europeana, saj smo si prizadevali razviti bolj specifično nalogo obdelave naravnega jezika.

EU Datathon spodbuja uporabo odprtih podatkovnih nizov. Zakaj je odprtost podatkov pomembna za vaše raziskave in aplikacijo?
Odprti podatki zagotavljajo ponovljivost in preglednost raziskav. Razpoložljivost takih podatkov je način za spodbujanje izmenjave znanja in sodelovanja v znanstvenih skupnostih. Večina naših raziskovalnih prizadevanj izkorišča odprte podatke iz več virov. To je primer naše aplikacije Maggie. Brez odprtih podatkov Europeane in data.europa.eu ne bi mogli razviti Maggie. Izvlečemo informacije o vsakem umetniškem delu, ki je na voljo prek Europeane, kot so njegov avtor, datum nastanka itd., informacije o njegovi geolokaciji pa združimo iz zbirke GeoDataset of data.europa.eu.
Zakaj ste se odločili za tekmovanje EU Datathon?
To je bil velik izziv za nas, saj smo poskušali zbrati vsa naša prejšnja prizadevanja v eni sami aplikaciji, ki bi lahko ljudem pomagala enostavno dostopati do evropskih kulturnih vsebin v današnji digitalni dobi. Vendar je bila to tudi priložnost, da se izvlečemo iz čistih akademskih raziskav in se v dokazu koncepta, ki presega fazo prototipa, zavežemo nečemu, kar bi se dejansko lahko uporabilo v dejanskih razmerah; vse ob uporabi najsodobnejših metodologij, virov in orodij pri obdelavi naravnega jezika in umetni inteligenci.
Kakšen nasvet bi dali drugim, ki bi se udeležili takšnega tekmovanja?
Sodelovanje na natečajih, ki spodbujajo uporabo odprtih podatkov, je način za podporo izvajanju, širjenju in sprejemanju takih podatkov. Prispeva tudi k izboljšanju in vzdrževanju naborov podatkov, ki jih je zaradi količine podatkov in virov težko upravljati, čistiti in testirati. Rezultati tovrstnih tekmovanj resnično vplivajo na družbo, saj so neposredno povezani z možnostjo izboljšanja kakovosti življenja državljanov, saj so informacije in znanje o družbi, v kateri živijo, dostopni in lahko dostopni. Naš nasvet raziskovalcem je, da izstopijo iz svoje cone udobja in združijo strogost raziskav z ustvarjalnostjo procesa oblikovanja, pri čemer kot končni cilj razmišljajo o koristnem vplivu na družbo.
