Az EU Datathon egy éves verseny, amely „lehetőséget biztosít a nyílt hozzáférésű adatok rajongói és az alkalmazásfejlesztők számára a világ minden tájáról, hogy bemutassák a nyílt hozzáférésű adatokban rejlő lehetőségeket, nemzetközi láthatóságot szerezzenek innovatív ötleteik számára, és versenyezzenek a 200 000 eurós teljes nyereményalapból és a közönségdíjból való részesedésükért”. Felkérjük őket, hogy használják a data.europa.eu-t, az Európai Unió Kiadóhivatala által kezelt hivatalos európai adatportált.
Az idei év elején a data.europa.eu oldalon közzétett Europeana.eu adatkészlettel, amely a kulturális örökséget ápoló, az Europeanának tartalmat szolgáltató mintegy 4000 intézmény metaadatait összesíti, a pályázathoz tervezett pályázatok és alkalmazások is profitálhatnak a pályázatból. A verseny hivatalos partnereként az Europeana meghívta a társadalom- és bölcsészettudományok, valamint a számítástechnika és informatika kutatóit, egyetemi tanárait és hallgatóit, hogy vegyenek részt az EU Datathonon.
A 38 országból érkező 156 pályamű előválogatásának két fordulóját követően az Europeana.eu adatkészletén alapuló alkalmazást fejlesztő csapat egyike volt a 12 döntősnek, és a 4. kihívás keretében 7000 eurós díjat kapott: „A digitális korra felkészült Európa” a 2022. október 20-án Brüsszelben tartott díjátadó ünnepségen. A csoport tagjai Johanna Monti professzor; kutató, Maria Pia di Buono; valamint két PhD-hallgató, Gennaro Nolano és Giulia Speranza. Johanna Monti mesél az élményről.
Mesélne nekünk az Ön által kifejlesztett alkalmazásról és annak létrehozásának folyamatáról?
Kifejlesztettük a Maggie-t, egy valós idejű chatbotot, amely virtuális asszisztensként működik, hogy segítse az embereket az európai kulturális tartalmak elérésében és felfedezésében. Az emberek természetes nyelvi kérdésekkel léphetnek kapcsolatba Maggie-vel, és kérdéseket tehetnek fel az európai kulturális örökségről.
A Maggie mögött álló fő ötlet a mesterséges intelligencia (AI) és a természetes nyelvi feldolgozás (NLP) módszertanának kiaknázása egy felhasználóközpontú alkalmazás kifejlesztésére, amely megkönnyíti a többnyelvű kulturális tartalmak elérését és felfedezését. A Maggie tervezett közönsége nagyon változatos; az alkalmazás a felhasználók ismereteire és érdeklődésére szabja a tartalmakat, hogy kielégítse a különböző információs igényeket, a diákoktól a szakértőkig.
Maggie több mint egy évtizedes kutatási tevékenység eredménye, amely 2012-ben kezdődött a kulturális örökséggel kapcsolatos, nyelvek közötti információ-visszakereséssel kapcsolatos első kísérleteinkkel. Ezt követően számos mérföldkő jelezte az utat Maggie felé, többek között a Nápolyi Egyetem L'Orientale UNIOR NLP kutatócsoportjának 2016-os létrehozása, valamint 2019 és 2021 között több projekt, köztük a SMACH projekt (Szemantikus többnyelvű hozzáférés a kulturális örökséghez), az ArchaeoTerm projekt, amely a YourTerm CULT projekt keretében rendelkezésre álló régészeti kifejezéseket kínál, valamint a NEAT (Named Entities in Archaeological Texts) projekt.
Miért döntött úgy, hogy az Europeana.eu adatkészletet használja?
Kutatócsoportunk mindig is elkötelezett volt amellett, hogy a kulturális örökséget szolgáló rendszerek és alkalmazások fejlesztésével a kulturális tartalmakat mindenki számára könnyen hozzáférhetővé tegye. Ebben az értelemben már számos műben hasznosítottuk az európai nyílt hozzáférésű adatokat (az Europeana honlapjáról származó adatok formájában), amelyek mindegyike a természetes nyelvek feldolgozásával kapcsolatos jelenlegi legkorszerűbb feladatok javítását célozza a kulturális örökséggel kapcsolatos tartalmakhoz való jobb hozzáférés érdekében.
Mindezekben az esetekben az általunk felhasznált adatok magját az Europeana Search API-ból lekapart nyílt adatok képviselték, ami megkönnyíti az összesített adatokhoz való hozzáférést és azok újrafelhasználását, miközben biztosítja az adatok magas minőségét és többnyelvűségét is. Míg a korábbi kísérletekben az Europeana adatmodell által leírt információk nagy részét (például a lokalizációra, a szerzőkre és a témákra vonatkozó adatokat) nem használták fel, Maggie fejlesztéséhez teljes mértékben kihasználjuk az Europeana által kínált gazdag információforrást, mivel egy konkrétabb természetes nyelvi feldolgozási feladat kidolgozására törekedtünk.

Az EU Datathon ösztönzi a nyílt adatkészletek használatát. Miért fontos az adatok nyitottsága a kutatáshoz és az alkalmazáshoz?
A nyílt hozzáférésű adatok biztosítják a kutatás reprodukálhatóságát és átláthatóságát. Az ilyen adatok rendelkezésre állása a tudományos közösségeken belüli tudásmegosztás és együttműködés ösztönzésének egyik módja. A legtöbb kutatási erőfeszítésünk több forrásból származó nyílt adatokat használ. Ez a helyzet a mi app Maggie. Az Europeana és a data.europa.eu nyílt hozzáférésű adatai nélkül nem tudtuk volna kifejleszteni Maggie-t. Információkat nyerünk ki az Europeanán keresztül elérhetővé tett minden egyes műalkotásról, például a szerzőről, a létrehozás dátumáról stb., és összesítjük a földrajzi elhelyezkedésére vonatkozó információkat a data.europa.eu GeoDataset adatbázisából.
Miért döntött úgy, hogy részt vesz az EU Datathon versenyen?
Ez nagy kihívás volt számunkra, mivel megpróbáltuk minden korábbi erőfeszítésünket egyetlen alkalmazásban összegyűjteni, amely segíthetne az embereknek abban, hogy a mai digitális korban könnyen hozzáférjenek az európai kulturális tartalmakhoz. Ugyanakkor lehetőséget is jelentett arra, hogy kilépjünk a tisztán tudományos kutatásból, és a prototípus-szakaszon túlmutató koncepcióigazolásban elkötelezzük magunkat valami olyan iránt, amely ténylegesen felhasználható egy valós helyzetben; mindezt a legkorszerűbb módszerek, erőforrások és eszközök felhasználásával a természetes nyelvi feldolgozás és a mesterséges intelligencia terén.
Milyen tanácsot adnál másoknak egy ilyen versenyen?
A nyílt hozzáférésű adatok felhasználását előmozdító versenyvizsgákhoz való csatlakozás az ilyen adatok végrehajtásának, terjesztésének és elfogadásának egyik módja. Hozzájárul továbbá az adatkészletek javításához és karbantartásához, amelyek az adatok és források mennyisége miatt nehezen kezelhetők, tisztíthatók és tesztelhetők. Az ilyen típusú versenyek eredményei valódi hatást gyakorolnak a társadalomra, közvetlenül kapcsolódnak a polgárok életminősége javításának lehetőségéhez azáltal, hogy hozzáférhetővé és könnyen hozzáférhetővé teszik a társadalomra vonatkozó információkat és ismereteket. Azt tanácsoljuk a kutatóknak, hogy lépjenek ki a komfortzónájukból, és ötvözzék a kutatás szigorúságát a tervezési folyamat kreativitásával, végső célként gondolva a társadalomra gyakorolt jótékony hatásra.
