Datathon EU-a godišnje je natjecanje koje pruža „priliku za entuzijaste otvorenih podataka i programere aplikacija iz cijelog svijeta da pokažu potencijal otvorenih podataka, dobiju međunarodnu vidljivost za svoje inovativne ideje i natječu se za svoj udio u ukupnom nagradnom fondu od 200 000 EUR i Nagradi za javni izbor”. Pozivaju se da iskoriste data.europa.eu, službeni portal za europske podatke kojim upravlja Ured za publikacije Europske unije.
Budući da je skup podataka Europeana.eu objavljen na data.europa.eu početkom ove godine, agregiranje metapodataka od približno 4000 institucija kulturne baštine koje pružaju sadržaj Europeani, prijedlozi i aplikacije osmišljeni za natjecanje također bi mogli imati koristi od njega za svoje unose. Kao službeni partner natječaja Europeana je pozvala istraživače, sveučilišne profesore i studente iz društvenih i humanističkih znanosti te računalnih i informacijskih znanosti da sudjeluju u Datathonu EU-a.
Nakon dva kruga predodabira 156 prijava iz 38 zemalja, tim koji razvija aplikaciju na temelju skupa podataka Europeana.eu bio je jedan od 12 finalista i dobio je nagradu u iznosu od 7 000 eura pod izazovom broj 4: „Europa spremna za digitalno doba” na svečanosti dodjele nagrada održanoj u Bruxellesu 20. listopada 2022. Tim se sastoji od profesorice Johanne Monti; istraživačica, Maria Pia di Buono; i dva doktora znanosti, Gennaro Nolano i Giulia Speranza. Johanna Monti nam govori o tom iskustvu.
Možete li nam reći o aplikaciji koju ste razvili i procesu njezina stvaranja?
Razvili smo Maggie, chatbot u stvarnom vremenu koji funkcionira kao virtualni asistent koji pomaže ljudima da pristupe europskim kulturnim sadržajima i otkriju ih. Ljudi mogu komunicirati s Maggie putem pitanja prirodnog jezika i postavljati pitanja o europskoj kulturnoj baštini.
Glavna je ideja Maggie iskoristiti metodologije umjetne inteligencije (UI) i obrade prirodnog jezika (NLP) za razvoj aplikacije usmjerene na korisnika koja olakšava pristup višejezičnom kulturnom sadržaju i njegovo otkrivanje. Namjeravana publika Maggie je vrlo raznolika; aplikacija prilagođava sadržaj znanju i interesima korisnika kako bi se zadovoljile različite potrebe za informacijama, od učenika do stručnjaka.
Maggie je rezultat više od desetljeća istraživačkih aktivnosti koje su započele 2012. našim prvim eksperimentima u istraživanju međujezičnih informacija o kulturnoj baštini. Nakon toga, nekoliko je ključnih etapa obilježilo naš put do Maggie, uključujući osnivanje istraživačke skupine UNIOR NLP Sveučilišta u Napulju L'Orientale 2016. godine i nekoliko projekata od 2019. do 2021., uključujući projekt SMACH (Semantički višejezični pristup kulturnoj baštini), projekt ArchaeoTerm koji nudi izvor arheoloških pojmova dostupnih u okviru projekta YourTerm CULT i projekt NEAT (Nazvani subjekti u arheološkim tekstovima).
Zašto ste se odlučili za upotrebu skupa podataka Europeana.eu?
Naša istraživačka grupa oduvijek se zalagala za to da kulturni sadržaj bude lako dostupan svima razvojem sustava i aplikacija za kulturnu baštinu. U tom smo smislu već iskoristili europske otvorene podatke (u obliku podataka s internetskih stranica Europeane) u nekoliko radova, a svi su bili usmjereni na poboljšanje trenutačnih najsuvremenijih zadataka obrade prirodnog jezika radi boljeg pristupa sadržaju kulturne baštine.
U svim tim slučajevima jezgru podataka koje je Sud upotrijebio činili su otvoreni podaci izdvojeni iz API-ja za pretraživanje Europeana, čime se olakšava pristup agregiranim podacima i njihova ponovna uporaba, uz istodobno osiguravanje visoke kvalitete podataka i njihove višejezičnosti. Dok se u prethodnim eksperimentima većina informacija opisanih u modelu podataka Europeane (kao što su podaci o lokalizaciji, autori i teme) nije koristila za razvoj Maggie, u potpunosti iskorištavamo bogat izvor informacija koje nudi Europeana jer smo imali za cilj razviti specifičniji zadatak obrade prirodnog jezika.

Datathon EU-a potiče upotrebu otvorenih skupova podataka. Zašto je otvorenost podataka važna za vaše istraživanje i aplikaciju?
Otvoreni podaci osiguravaju obnovljivost i transparentnost u istraživanju. Dostupnost takvih podataka predstavlja način poticanja razmjene znanja i suradnje u znanstvenim zajednicama. Većina naših istraživačkih napora koristi otvorene podatke iz nekoliko izvora. To je slučaj s našom aplikacijom Maggie. Bez otvorenih podataka s portala Europeana i data.europa.eu nismo mogli razviti Maggie. Izvlačimo informacije o svakom umjetničkom djelu dostupnom putem Europeane, kao što su njegov autor, datum stvaranja itd., a informacije o njegovoj geolokaciji prikupljamo iz GeoDataset of data.europa.eu.
Zašto ste se odlučili prijaviti na natjecanje EU Datathon?
To nam je bio velik izazov jer smo sve prethodne napore pokušali prikupiti u jednoj aplikaciji koja bi ljudima mogla olakšati pristup europskom kulturnom sadržaju u današnjem digitalnom dobu. Međutim, to je također predstavljalo priliku da se izvuku iz čistog akademskog istraživanja i da se obvežu u dokazu koncepta koji nadilazi fazu prototipa, prema nečemu što bi se zapravo moglo koristiti u stvarnoj situaciji; koristeći se najsuvremenijim metodologijama, resursima i alatima u obradi prirodnog jezika i umjetnoj inteligenciji.
Koji biste savjet dali drugima koji se natječu na ovakvim natjecanjima?
Pridruživanje natječajima kojima se promiče upotreba otvorenih podataka način je potpore provedbi, širenju i prihvaćanju takvih podataka. Također pridonosi poboljšanju i održavanju skupova podataka kojima je zbog količine podataka i izvora teško upravljati, čistiti ih i testirati. Rezultati ovih vrsta natjecanja imaju stvaran utjecaj na društvo, izravno povezan s mogućnošću poboljšanja kvalitete života građana, čineći informacije i znanja o društvu u kojem žive dostupnima i lako dostupnima. Naš savjet istraživačima je da izađu iz svoje zone udobnosti i kombiniraju strogost istraživanja s kreativnošću procesa dizajna, razmišljajući o blagotvornom utjecaju na društvo kao konačnom cilju.
