„EU Datathon“ yra kasmetinis konkursas, kuris suteikia „galimybę atvirųjų duomenų entuziastams ir taikomųjų programų kūrėjams iš viso pasaulio parodyti atvirųjų duomenų potencialą, užsitikrinti tarptautinį savo novatoriškų idėjų matomumą ir konkuruoti dėl savo dalies visame 200 000 EUR priziniame fonde ir publikos pasirinkimo apdovanojimo“. Jie kviečiami naudotis oficialiu Europos duomenų portalu data.europa.eu, kurį tvarko Europos Sąjungos leidinių biuras.
Šių metų pradžioje portale data.europa.eu paskelbus duomenų rinkinį „Europeana.eu“, iš maždaug 4 000 kultūros paveldo įstaigų, teikiančių turinį portalui „Europeana“, gauti metaduomenys taip pat galėtų būti naudingi konkursui skirtiems pasiūlymams ir programėlėms. Kaip oficiali konkurso partnerė, Europeana pakvietė socialinių ir humanitarinių mokslų bei kompiuterių ir informacijos mokslų mokslininkus, universitetų dėstytojus ir studentus dalyvauti „EU Datathon“.
Po dviejų pirminės 156 dalyvių iš 38 šalių atrankos raundų komanda, kurianti taikomąją programą, pagrįstą Europeana.eu duomenų rinkiniu, buvo viena iš 12 finalininkų ir apdovanota 7 000 EUR prizu pagal 4-ąjį uždavinį: 2022 m. spalio 20 d. Briuselyje vykusioje apdovanojimų ceremonijoje „Prie skaitmeninio amžiaus prisitaikiusi Europa“. Komandą sudaro profesorė Johanna Monti; tyrėja Maria Pia di Buono; ir du doktorantai Gennaro Nolano ir Giulia Speranza. Johanna Monti pasakoja apie šią patirtį.
Ar galite papasakoti apie programą, kurią sukūrėte, ir jos kūrimo procesą?
Mes sukūrėme Maggie, realaus laiko pokalbių robotą, kuris veikia kaip virtualus asistentas, padedantis žmonėms susipažinti su Europos kultūriniu turiniu ir jį atrasti. Žmonės gali bendrauti su Maggie per natūralios kalbos klausimus ir paklausti apie Europos kultūros paveldą.
Pagrindinė "Maggie" idėja yra dirbtinio intelekto (AI) ir natūraliosios kalbos apdorojimo (NLP) metodikų naudojimas kuriant į vartotoją orientuotą programą, kuri palengvina prieigą prie daugiakalbio kultūrinio turinio ir jo atradimą. Tikslinė Maggie auditorija yra labai įvairi; programėlė pritaiko turinį prie naudotojų žinių ir interesų, kad būtų patenkinti įvairūs informacijos poreikiai – nuo studentų iki ekspertų.
Maggie yra daugiau nei dešimtmetį trukusios mokslinių tyrimų veiklos, kuri prasidėjo 2012 m. mūsų pirmaisiais eksperimentais kryžminės kalbos informacijos apie kultūros paveldą paieškos srityje, rezultatas. Po to mūsų kelias į Maggę buvo pažymėtas keliais etapais, įskaitant Neapolio L'Orientalės universiteto UNIOR NLP mokslinių tyrimų grupės įsteigimą 2016 m. ir kelis projektus 2019–2021 m., įskaitant projektą SMACH (Semantinė daugiakalbė prieiga prie kultūros paveldo), projektą „ArchaeoTerm“, kuriame siūlomi archeologiniai terminai, prieinami pagal projektą „YourTerm CULT“, ir projektą NEAT (Pavadinti subjektai archeologiniuose tekstuose).
Kodėl nusprendėte naudotis Europeana.eu duomenų rinkiniu?
Mūsų mokslinių tyrimų grupė visada buvo įsipareigojusi užtikrinti, kad kultūrinis turinys būtų lengvai prieinamas visiems, kuriant kultūros paveldo sistemas ir taikomąsias programas. Šiuo požiūriu jau išnaudojome Europos atviruosius duomenis (Europeanos interneto svetainės duomenis) keliuose darbuose, kuriais siekiama pagerinti dabartines naujausias natūraliosios kalbos apdorojimo užduotis, kad būtų sudarytos geresnės sąlygos susipažinti su kultūros paveldo turiniu.
Visais šiais atvejais mūsų naudojamų duomenų pagrindą sudarė atvirieji duomenys, paimti iš „Europeana Search“ API, todėl agreguotus duomenis lengva pasiekti ir pakartotinai naudoti, kartu užtikrinant aukštą duomenų kokybę ir jų daugiakalbystę. Nors ankstesniuose eksperimentuose didžioji dalis Europeanos duomenų modelyje aprašytos informacijos (pvz., duomenys apie lokalizaciją, autorius ir temas) nebuvo naudojama Maggie plėtoti, mes visapusiškai išnaudojame turtingą Europeanos siūlomą informacijos šaltinį, nes siekėme sukurti konkretesnę natūraliosios kalbos apdorojimo užduotį.

„EU Datathon“ skatina naudoti atvirųjų duomenų rinkinius. Kodėl duomenų atvirumas yra svarbus jūsų moksliniams tyrimams ir programai?
Atvirieji duomenys užtikrina mokslinių tyrimų atkuriamumą ir skaidrumą. Tokių duomenų prieinamumas yra būdas skatinti dalijimąsi žiniomis ir bendradarbiavimą mokslo bendruomenėse. Daugumai mūsų mokslinių tyrimų naudojami atvirieji duomenys iš kelių šaltinių. Tai yra mūsų app Maggie atvejis. Be atvirųjų „Europeanos“ ir „data.europa.eu“ duomenų negalėjome sukurti „Maggie“. Išgauname informaciją apie kiekvieną per Europeaną pateiktą meno kūrinį, pvz., jo autorių, sukūrimo datą ir pan., ir kaupiame informaciją apie jo geografinę vietą iš data.europa.eu GeoDataset.
Kodėl nusprendėte dalyvauti konkurse „EU Datathon“?
Mums tai buvo didelis iššūkis, nes bandėme sutelkti visas ankstesnes pastangas į vieną taikomąją programą, kuri galėtų padėti žmonėms lengvai susipažinti su Europos kultūriniu turiniu šiandienos skaitmeniniame amžiuje. Tačiau tai taip pat buvo galimybė išeiti iš grynai akademinių tyrimų ir įrodyti koncepciją, kuri neapsiriboja prototipo etapu, siekiant kažko, kas iš tikrųjų galėtų būti naudojama realioje situacijoje; naudojant pažangiausias natūraliosios kalbos apdorojimo ir dirbtinio intelekto metodikas, išteklius ir priemones.
Kokį patarimą duotumėte kitiems dalyvauti tokiame konkurse?
Prisijungimas prie konkursų, kuriais skatinamas atvirųjų duomenų naudojimas, yra būdas remti tokių duomenų įgyvendinimą, sklaidą ir priėmimą. Jis taip pat padeda tobulinti ir prižiūrėti duomenų rinkinius, kuriuos dėl duomenų ir šaltinių kiekio sunku valdyti, valyti ir išbandyti. Šių konkursų rezultatai daro realų poveikį visuomenei, tiesiogiai susijusį su galimybe pagerinti piliečių gyvenimo kokybę, nes informacija ir žinios apie visuomenę, kurioje jie gyvena, tampa prieinamos ir lengvai prieinamos. Mūsų patarimas mokslininkams yra išeiti iš savo komforto zonos ir derinti mokslinių tyrimų griežtumą su projektavimo proceso kūrybiškumu, galvodami apie teigiamą poveikį visuomenei kaip galutinį tikslą.
