EU Datathon е ежегоден конкурс, който предоставя „възможност на ентусиастите в областта на отворените данни и разработчиците на приложения от цял свят да демонстрират потенциала на отворените данни, да получат международна видимост за своите иновативни идеи и да се състезават за своя дял от общия награден фонд в размер на 200 000 евро и наградата „Обществен избор“. Те се приканват да използват data.europa.eu, официалния портал за европейски данни, управляван от Службата за публикации на Европейския съюз.
С набора от данни Europeana.eu, публикуван на data.europa.eu по-рано тази година, обобщаването на метаданни от приблизително 4000 институции в областта на културното наследство, които предоставят съдържание на Europeana, предложенията и приложенията, предназначени за конкурса, също биха могли да се възползват от него за своите кандидатури. Като официален партньор на конкурса Europeana покани изследователи, университетски преподаватели и студенти от социалните и хуманитарните науки и компютърните и информационните науки да участват в Datathon на ЕС.
След два кръга на предварителен подбор на 156 кандидатури от 38 държави, екип, който разработва приложение въз основа на набора от данни Europeana.eu, беше един от 12-те финалисти и получи награда от 7 000 евро по предизвикателство No 4: „Европа, подготвена за цифровата ера“ на церемонията по награждаването, която се проведе в Брюксел на 20 октомври 2022 г. Екипът се състои от професор Йохана Монти; изследовател, Мария Пиа ди Буоно; и двама докторанти, Дженаро Нолано и Джулия Сперанца. Йохана Монти разказва за преживяването.
Можете ли да ни разкажете за приложението, което сте разработили и процеса на създаването му?
Разработихме Maggie, чатбот в реално време, който функционира като виртуален асистент, който помага на хората да имат достъп и да откриват европейско културно съдържание. Хората могат да взаимодействат с Маги чрез въпроси, свързани с естествения език, и да задават въпроси за европейското културно наследство.
Основната идея на Маги е да използва методологиите за изкуствен интелект (AI) и обработка на естествен език (NLP), за да разработи ориентирано към потребителя приложение, което улеснява достъпа и откриването на многоезично културно съдържание. Целевата аудитория на Маги е много разнообразна; приложението адаптира съдържанието към знанията и интересите на потребителите, за да задоволи различни потребности от информация — от студенти до експерти.
Маги е резултат от повече от десетилетие изследователски дейности, които започнаха през 2012 г. с първите ни експерименти в областта на междуезиковото извличане на информация за културното наследство. След това няколко ключови етапа отбелязаха пътя ни към Маги, включително създаването на изследователската група UNIOR NLP на Университета в Неапол L'Orientale през 2016 г. и няколко проекта от 2019 г. до 2021 г., включително проекта SMACH (Семантичен многоезичен достъп до културното наследство), проекта ArchaeoTerm, който предлага ресурс от археологически термини, налични в рамките на проекта YourTerm CULT, и проекта NEAT (Наименовани субекти в археологически текстове).
Защо решихте да използвате набора от данни Europeana.eu?
Нашата изследователска група винаги се е ангажирала да направи културното съдържание лесно достъпно за всички чрез разработване на системи и приложения за културното наследство. В този смисъл вече използвахме европейски свободно достъпни данни (под формата на данни от уебсайта Europeana) в няколко произведения, като всички те са насочени към подобряване на настоящите най-съвременни задачи в областта на обработката на естествен език за по-добър достъп до съдържанието на културното наследство.
Във всички тези случаи ядрото на данните, които използвахме, беше представено от свободно достъпни данни, извлечени от API за търсене на Europeana, което улеснява достъпа и повторното използване на обобщени данни, като същевременно гарантира високото качество на данните и тяхното многоезичие. Въпреки че в предишни експерименти голяма част от информацията, описана от модела на данни на Europeana (като например данни за локализация, автори и теми), не беше използвана за разработването на Maggie, ние напълно използваме богатия източник на информация, предлаган от Europeana, тъй като имахме за цел да разработим по-специфична задача за обработка на естествен език.

EU Datathon насърчава използването на набори от свободно достъпни данни. Защо отвореността на данните е важна за вашите изследвания и приложения?
Отворените данни гарантират възпроизводимост и прозрачност в научните изследвания. Наличието на такива данни представлява начин за насърчаване на обмена на знания и сътрудничеството в научните общности. Повечето от нашите изследователски усилия се възползват от отворените данни от няколко източника. Такъв е случаят с нашето приложение Маги. Без свободно достъпни данни от Europeana и data.europa.eu нямаше да можем да разработим Маги. Извличаме информация за всяко произведение на изкуството, предоставено чрез Europeana, като например неговия автор, дата на създаване и т.н., и обобщаваме информацията за неговото геолокация от набора от геоданни на data.europa.eu.
Защо решихте да участвате в конкурса на ЕС Datathon?
Това беше голямо предизвикателство за нас, тъй като се опитахме да съберем всичките си предишни усилия в едно-единствено приложение, което би могло да помогне на хората лесно да получат достъп до европейско културно съдържание в днешната цифрова ера. Това обаче представляваше и възможност за излизане от чисто академичните изследвания и за ангажиране с доказване на концепцията, което надхвърля етапа на прототипа, към нещо, което действително би могло да се използва в реална ситуация; като същевременно се използват най-съвременни методологии, ресурси и инструменти в областта на обработката на естествен език и изкуствения интелект.
Какъв съвет бихте дали на другите, които участват в подобно състезание?
Присъединяването към конкурси, които насърчават използването на свободно достъпни данни, е начин за подпомагане на прилагането, разпространението и приемането на такива данни. Той също така допринася за подобряването и поддържането на набори от данни, които поради обема на данните и източниците са трудни за управление, почистване и изпитване. Резултатите от тези видове конкурси имат реално въздействие върху обществото, пряко свързано с възможността за подобряване на качеството на живот на гражданите чрез предоставяне на достъпна и леснодостъпна информация и знания за обществото, в което живеят. Нашият съвет към изследователите е да излязат от зоната си на комфорт и да съчетаят строгостта на научните изследвания с творчеството на процеса на проектиране, мислейки за благотворното въздействие върху обществото като крайна цел.
