EU Datathon on vuosittainen kilpailu, jossa avoimen datan harrastajat ja sovelluskehittäjät eri puolilta maailmaa voivat esitellä avoimen datan potentiaalia, saada kansainvälistä näkyvyyttä innovatiivisille ideoilleen ja kilpailla osuudestaan 200 000 euron palkintorahastosta ja Public Choice Award -palkinnosta. Heitä kehotetaan hyödyntämään data.europa.eu-sivustoa, joka on Euroopan unionin julkaisutoimiston hallinnoima virallinen eurooppalaisen datan portaali.
Aiemmin tänä vuonna data.europa.eu-sivustolla julkaistun Europeana.eu-data-aineiston avulla, johon on koottu metatietoja noin 4 000 kulttuuriperintölaitoksesta, jotka tarjoavat sisältöä Europeanalle, kilpailuun suunnitellut ehdotukset ja sovellukset voisivat myös hyötyä siitä osallistumisessaan. Kilpailun virallisena kumppanina Europeana kutsui tutkijoita, yliopistoprofessoreita ja yhteiskuntatieteiden ja humanististen tieteiden sekä tietojenkäsittelytieteen opiskelijoita osallistumaan EU Datathon -tapahtumaan.
Kahden esivalintakierroksen jälkeen, joihin osallistui 156 osallistujaa 38 maasta, Europeana.eu-tietokantaan perustuvaa sovellusta kehittävä tiimi oli yksi 12 finalistista, ja sille myönnettiin 7 000 euron palkinto haasteessa nro 4: ”Euroopan digitaalinen valmius” palkintoseremoniassa Brysselissä 20. lokakuuta 2022. Ryhmään kuuluu professori Johanna Monti. tutkija Maria Pia di Buono; ja kaksi jatko-opiskelijaa, Gennaro Nolano ja Giulia Speranza. Johanna Monti kertoo kokemuksesta.
Voitko kertoa meille kehittämästäsi sovelluksesta ja sen luomisprosessista?
Kehitimme Maggien, reaaliaikaisen chatbotin, joka toimii virtuaaliassistenttina ja auttaa ihmisiä pääsemään käsiksi eurooppalaiseen kulttuurisisältöön ja löytämään sen. Ihmiset voivat olla vuorovaikutuksessa Maggien kanssa luonnolliseen kieleen liittyvien kysymysten kautta ja kysyä eurooppalaisesta kulttuuriperinnöstä.
Maggien pääajatuksena on hyödyntää tekoälyn (AI) ja luonnollisen kielen käsittelyn (NLP) menetelmiä kehittääkseen käyttäjäkeskeisen sovelluksen, joka helpottaa monikielisen kulttuurisisällön saatavuutta ja löytämistä. Maggien kohdeyleisö on hyvin monipuolinen; sovellus räätälöi sisältöä käyttäjien tietämyksestä ja kiinnostuksen kohteista erilaisten tietotarpeiden tyydyttämiseksi opiskelijoista asiantuntijoihin.
Maggie on tulosta yli vuosikymmenen kestäneestä tutkimustoiminnasta, joka alkoi vuonna 2012 ensimmäisillä kokeillamme kulttuuriperintöä koskevassa kieltenvälisessä tiedonhaussa. Tämän jälkeen Maggieen saavutettiin useita virstanpylväitä, kuten Napolin L'Orientalen yliopiston UNIOR NLP -tutkimusryhmän perustaminen vuonna 2016 ja useita hankkeita vuosina 2019–2021, mukaan lukien SMACH-hanke (Semantic Multilingual Access to Cultural Heritage), ArchaeoTerm-hanke, joka tarjoaa arkeologisten termien resurssin, joka on käytettävissä YourTerm CULT -hankkeen puitteissa, ja NEAT-hanke (Named Entities in Archaeological Texts).
Miksi päätit käyttää Europeana.eu-datajoukkoa?
Tutkimusryhmämme on aina ollut sitoutunut tekemään kulttuurisisällöstä helposti saavutettavaa kaikille kehittämällä kulttuuriperintöjärjestelmiä ja -sovelluksia. Tässä mielessä olemme jo hyödyntäneet eurooppalaista avointa dataa (Europeanan verkkosivustolta saatavan datan muodossa) useissa teoksissa, joilla kaikilla pyritään parantamaan luonnonkielen käsittelytehtävien nykytasoa kulttuuriperinnön sisällön saatavuuden parantamiseksi.
Kaikissa näissä tapauksissa käyttämämme datan ydintä edusti Europeana Search API -rajapinnasta kaavittu avoin data, jonka avulla aggregoituihin tietoihin on helppo päästä käsiksi ja niitä on helppo käyttää uudelleen, samalla kun varmistetaan datan korkea laatu ja monikielisyys. Vaikka aikaisemmissa kokeissa suurta osaa Europeana-tietomallin kuvaamista tiedoista (kuten lokalisointitietoja, tekijöitä ja teemoja) ei käytetty Maggien kehittämiseen, hyödynnämme täysin Europeanan tarjoamaa rikasta tietolähdettä, koska pyrimme kehittämään tarkemman luonnollisen kielen käsittelytehtävän.

EU Datathon kannustaa avoimen datan käyttöön. Miksi datan avoimuus on tärkeää tutkimuksellesi ja sovelluksellesi?
Avoin data varmistaa tutkimuksen toistettavuuden ja läpinäkyvyyden. Tällaisten tietojen saatavuus on keino edistää tietämyksen jakamista ja yhteistyötä tiedeyhteisöissä. Suurin osa tutkimustyöstämme hyödyntää avointa dataa useista eri lähteistä. Tämä koskee Maggie-sovellustamme. Ilman Europeanan ja data.europa.eu:n avointa dataa emme olisi voineet kehittää Maggieta. Keräämme tietoa jokaisesta Europeanan kautta saataville asetetusta teoksesta, kuten sen tekijästä, luontipäivästä ja niin edelleen, ja koostamme tiedot sen maantieteellisestä sijainnista data.europa.eu-sivuston GeoDataset-tietokannasta.
Miksi päätit osallistua EU Datathon -kilpailuun?
Se oli suuri haaste meille, koska yritimme koota kaikki aiemmat pyrkimyksemme yhteen sovellukseen, joka voisi auttaa ihmisiä saamaan helposti käyttöönsä eurooppalaista kulttuurisisältöä nykypäivän digitaalisella aikakaudella. Se tarjosi kuitenkin myös tilaisuuden irrottautua puhtaasta akateemisesta tutkimuksesta ja sitoutua prototyyppivaihetta pidemmälle menevään todisteeseen käsitteestä kohti jotakin, jota voitaisiin todella käyttää todellisessa tilanteessa. kaikki samalla kun hyödynnetään luonnonkielen prosessoinnin ja tekoälyn uusimpia menetelmiä, resursseja ja välineitä.
Mitä neuvoja antaisit muille, jotka osallistuvat tällaiseen kilpailuun?
Avoimen datan käyttöä edistäviin kilpailuihin osallistuminen on keino tukea tällaisen datan käyttöönottoa, levittämistä ja käyttöönottoa. Se edistää myös sellaisten tietoaineistojen parantamista ja ylläpitoa, joita on tietojen ja lähteiden määrän vuoksi vaikea hallita, puhdistaa ja testata. Tämäntyyppisten kilpailujen tuloksilla on todellinen vaikutus yhteiskuntaan, ja ne liittyvät suoraan mahdollisuuteen parantaa kansalaisten elämänlaatua asettamalla heidän yhteiskuntaansa koskevat tiedot ja tietämyksensä helposti saataville. Neuvomme tutkijoita pääsemään pois mukavuusalueeltaan ja yhdistämään tutkimuksen tarkkuuden suunnitteluprosessin luovuuteen, pitäen lopullisena tavoitteena hyödyllistä vaikutusta yhteiskuntaan.
