EU Datathon on iga-aastane konkurss, mis annab „avatud andmete entusiastidele ja rakenduste arendajatele kogu maailmast võimaluse näidata avatud andmete potentsiaali, saavutada oma uuenduslike ideede rahvusvaheline nähtavus ning võistelda oma osa eest 200 000 euro suuruses auhinnafondis ja avaliku valiku auhinnas“. Neil palutakse kasutada Euroopa Liidu Väljaannete Talituse hallatavat Euroopa andmete ametlikku portaali data.europa.eu.
Käesoleva aasta alguses veebisaidil data.europa.eu avaldatud Europeana.eu andmestikuga, mis koondab ligikaudu 4000 Europeanale sisu pakkuva kultuuripärandiasutuse metaandmeid, võivad konkursi jaoks kavandatud ettepanekud ja rakendused saada sellest kasu ka oma kannete puhul. Konkursi ametliku partnerina kutsus Europeana ELi Datathonis osalema sotsiaal- ja humanitaarteaduste ning arvuti- ja infoteaduse teadlasi, ülikooliprofessoreid ja üliõpilasi.
Pärast kahte eelvalikuvooru, milles osales 156 kandidaati 38 riigist, oli Europeana.eu andmestikul põhinevat rakendust arendav meeskond üks 12 finalististist ja talle anti konkursi nr 4 raames 7000 euro suurune auhind: 20. oktoobril 2022 Brüsselis toimunud auhinnatseremoonial „Digiajastule vastav Euroopa“. Meeskonda kuulub professor Johanna Monti; teadur Maria Pia di Buono; ning kaks doktoranti, Gennaro Nolano ja Giulia Speranza. Johanna Monti räägib meile sellest kogemusest.
Kas saate meile rääkida rakendusest, mille olete välja töötanud, ja selle loomise protsessist?
Arendasime välja reaalajas vestlusroboti Maggie, mis toimib virtuaalse assistendina, et aidata inimestel Euroopa kultuurisisule juurde pääseda ja seda avastada. Inimesed saavad Maggiega suhelda loomuliku keele küsimuste kaudu ja küsida Euroopa kultuuripärandi kohta.
Maggie peamine idee on kasutada tehisintellekti (AI) ja loomuliku keele töötlemise (NLP) metoodikat, et töötada välja kasutajakeskne rakendus, mis hõlbustab juurdepääsu mitmekeelsele kultuurisisule ja selle avastamist. Maggie kavandatud vaatajaskond on väga mitmekesine; rakendus kohandab sisu vastavalt kasutajate teadmistele ja huvidele, et rahuldada erinevaid teabevajadusi alates õpilastest kuni ekspertideni.
Maggie on enam kui kümne aasta pikkuse teadustegevuse tulemus, mis algas 2012. aastal meie esimeste katsetega kultuuripärandi kohta keeleülese teabe hankimisel. Pärast seda tähistasid mitmed vahe-eesmärgid meie teed Maggiesse, sealhulgas Napoli L'Orientale'i ülikooli UNIOR NLP uurimisrühma loomine 2016. aastal ja mitu projekti aastatel 2019–2021, sealhulgas projekt SMACH (semantiline mitmekeelne juurdepääs kultuuripärandile), projekt ArchaeoTerm, mis pakub arheoloogiliste terminite ressurssi, mis on kättesaadav projekti YourTerm CULT raames, ja projekt NEAT (nimetatud üksused arheoloogilistes tekstides).
Miks otsustasite kasutada Europeana.eu andmekogumit?
Meie uurimisrühm on alati pühendunud sellele, et muuta kultuurisisu kõigile kergesti kättesaadavaks, arendades kultuuripärandi süsteeme ja rakendusi. Selles mõttes oleme juba kasutanud Euroopa avatud andmeid (Europeana veebisaidi andmete kujul) mitmes teoses, mille kõigi eesmärk on parandada looduskeele töötlemise ülesannete praegust taset, et parandada juurdepääsu kultuuripärandi sisule.
Kõigil neil juhtudel esindasid meie kasutatud andmete tuuma Europeana Search API-st kraabitud avatud andmed, mis lihtsustab koondandmetele juurdepääsu ja nende taaskasutamist, tagades samal ajal andmete kõrge kvaliteedi ja mitmekeelsuse. Kuigi varasemates katsetes ei kasutatud suurt osa Europeana andmemudelis kirjeldatud teabest (nt lokaliseerimise, autorite ja teemade andmed), kasutame Maggie arendamiseks täielikult Europeana pakutavat rikkalikku teabeallikat, kuna püüdsime välja töötada konkreetsema loomuliku keele töötlemise ülesande.

EU Datathon julgustab kasutama avatud andmestikke. Miks on andmete avatus teie uurimistöö ja rakenduse jaoks oluline?
Avatud andmed tagavad teadusuuringute korratavuse ja läbipaistvuse. Selliste andmete kättesaadavus on viis, kuidas soodustada teadmiste jagamist ja koostööd teadusringkondades. Enamik meie teadusuuringutest kasutab ära mitmest allikast pärit avatud andmeid. See on nii meie app Maggie. Ilma Europeana ja data.europa.eu avatud andmeteta ei oleks me saanud Maggiet arendada. Me kogume teavet iga Europeana kaudu kättesaadavaks tehtud kunstiteose kohta, nagu selle autor, loomise kuupäev jne, ning koondame teabe selle geograafilise asukoha kohta andmebaasist data.europa.eu.
Miks otsustasite osaleda võistlusel EU Datathon?
See oli meie jaoks suur väljakutse, kuna püüdsime koondada kõik oma varasemad jõupingutused ühte rakendusse, mis võiks aidata inimestel Euroopa kultuurisisule tänapäeva digiajastul hõlpsalt juurde pääseda. Kuid see andis ka võimaluse pääseda puhtalt akadeemilistest uuringutest ja pühenduda kontseptsiooni tõestamisele, mis ulatub prototüübi etapist kaugemale, millegi poole, mida võiks reaalses olukorras tegelikult kasutada; kasutades samal ajal uusimaid meetodeid, ressursse ja vahendeid loomuliku keele töötlemise ja tehisintellekti valdkonnas.
Millist nõu annaksite teistele, kes sellisel võistlusel osalevad?
Avatud andmete kasutamist edendavatel konkurssidel osalemine on võimalus toetada selliste andmete rakendamist, levitamist ja vastuvõtmist. Samuti aitab see parandada ja hooldada andmekogumeid, mida on andmete ja allikate hulga tõttu raske hallata, puhastada ja testida. Seda liiki konkursside tulemused avaldavad ühiskonnale reaalset mõju, mis on otseselt seotud võimalusega parandada kodanike elukvaliteeti, muutes teabe ja teadmised ühiskonna kohta, kus nad elavad, juurdepääsetavaks ja kergesti kättesaadavaks. Meie nõuanne teadlastele on väljuda oma mugavustsoonist ja ühendada teadustöö rangus disainiprotsessi loovusega, pidades lõppeesmärgiks kasulikku mõju ühiskonnale.
