A többnyelvű metaadatok jelentette kihívás
Az Europeana olyan gyűjteményekkel dolgozik, amelyeket legalább 37 nyelven írtak le, és arra törekszik, hogy azokat olyan keresési kifejezésekkel párosítsa, amelyek bármely nyelven előfordulhatnak. Az Europeana honlapján található gyűjtemények minden elemét metaadatmezők írják le, amelyek alapvető információkat közölnek róluk, például a címüket és az alkotójukat. Ez az információ segít az embereknek felfedezni és megérteni azokat a tárgyakat, amelyek érdeklik őket. Jelenleg a nyilvántartások többsége egyetlen nyelven, az adatszolgáltatók nyelvén tartalmaz kifejezéseket. A többnyelvű metaadatok hiánya hátráltatja az Europeana azon célkitűzését, hogy széles körű hozzáférést biztosítson gyűjteményéhez a különböző nyelveken.
E tekintetben nagy kihívást jelent a többnyelvűség kezelése. Először is, a metaadatok nem természetes nyelvek, teljes mondatokkal és kiszámítható nyelvtannal; gyakran rövid mondatokban vagy akár egyetlen szóban szerepel, ami azt jelenti, hogy nehéz megtalálni a pontos fordításhoz szükséges kontextust. Ezenkívül az alkalmazott kifejezések nagyon konkrétak is lehetnek; általános kifejezésnek tűnhetnek, de a kulturális örökséggel összefüggésben más jelentéssel bírnak.
Például az utolsó vacsorát tükröző görög vallási kifejezést helytelenül titkos vacsorának lehet fordítani. Ennek a pontatlan fordításnak - vagy az angol fordítás teljes hiányának - az lenne a következménye, hogy az adott témára utaló címmel vagy leírással rendelkező görög műtárgyak nem jelennének meg az eredmények között, amikor valaki az Europeana honlapján az Utolsó Vacsoráról keres festményeket.
Hídépítés az Europeana és az eTranslation digitális szolgáltatási közösségek között
Hogyan működik együtt az Europeana Translate projekt más érdekelt felekkel és eszközökkel e kihívás kezelése érdekében?
Az Európai Bizottság által kifejlesztett eTranslation egy olyan nyelvi eszköz, amelyet a legújabb mesterségesintelligencia-technológiák felhasználásával hoztak létre, és amelyet a házon belül rendelkezésre álló és az egész EU-ra kiterjedő nyelvierőforrás-gyűjtés keretében gyűjtött nagy mennyiségű adatról képeztek ki. Az eTranslation DSI által használt ELRC-SHARE adattárban a kulturális örökség alulreprezentált, és ennek következtében a meglévő technológiai megoldások kevésbé alkalmasak a kulturális örökséggel kapcsolatos adatok sajátos szempontjainak kezelésére.
Ebben az összefüggésben az Europeana és az eTranslation közösségek érdekelt felei közötti együttműködés kiépítése kulcsfontosságú a gépi fordítási eszközök testreszabásához, hogy azok ki tudják szolgálni a kulturális örökség területének sajátos igényeit. Az Europeana Translate célja, hogy összefogja az eTranslation és az Europeana közösségeket a két ágazat előtt álló kihívások kezelése érdekében. A digitális kulturális örökséghez való többnyelvű hozzáférés javításához számos kiegészítő szerepre és szakértelemre van szükség, amelyeket az Europeana Translate különböző partnerei szolgálnak ki (lásditt).
Kísérletek gépi fordítással
Az elmúlt néhány hónapban a projektpartnerek együttműködtek annak érdekében, hogy kiválasszák és megfelelően szegmentálják és megtisztítsák a metaadat-rekordokat az Europeana weboldaláról. Ezeket az adatokat később a projektpartner Pangeanic hasznosította, aki a meglévő általános nyelvi erőforrásokból származó 12 millió fordítási szöveges szegmensen felül használta fel a gépi fordítási algoritmusok pontosságának javítására a kulturális örökséghez tartozó metaadatok fordítása során.
A Pangeanic számos kísérletet végzett a képzési adatok különböző kombinációinak figyelembevételével. Ez magában foglalta az Europeana kétnyelvű metaadatait, a metaadatokból egy nyelven előállított szintetikus adatokat, valamint a kulturális örökség tárgyköréhez kapcsolódó többnyelvű szókincseket. Az Europeanán kívüli alternatív adatforrásokat is figyelembe vettek azon nyelvek esetében, amelyek esetében kevés vagy semmilyen forrás nem áll rendelkezésre angolra történő fordítással. Ezeknek a kísérleteknek a bevált mérőszámok felhasználásával történő automatikus értékelése lehetővé tette a partnerek számára, hogy döntsenek a legjobb minőségű automatikus fordítások beállításáról, és összehasonlítsák azokat más fordítási eszközök, például a Google Translate és az eTranslate által elért eredményekkel. Az értékelés általánosságban azt mutatja, hogy a legtöbb nyelv esetében javultak az eredmények az általános modellekhez képest.
Az e folyamat eredményeként létrejövő gépi fordítómotorok a metaadatokat az EU 23 hivatalos nyelvéről angolra (a 24. hivatalos nyelvre) fordítják. Ezeket a fordítómotorokat arra fogják használni, hogy legalább 25 millió metaadat-rekordhoz automatikus angol fordítást készítsenek az Europeana platformon. A fordítások indexálásra és megjelenítésre kerülnek, ami javítja a többnyelvű felhasználói élményt az Europeana platformon. Az "Utolsó vacsora" vallási témája által inspirált műtárgyakat kereső személy az Europeana Translate befejezése után Görögországból, Romániából és sok más országból származó festményekhez is hozzáférhet, amelyek jelenleg nem szerepelnek a keresési eredményekben.
Ezen túlmenően az Europeana Translate az ELRC-SHARE adattáron keresztül, ingyenes újrafelhasználási engedély (CC0) alapján nyíltan hozzáférhetővé teszi a kiválasztott és megfelelően feldolgozott nyelvi erőforrásokat. Ez lehetővé teszi a gépi fordítással foglalkozó közösség számára, hogy nyílt hozzáférésű adatokat használjon fel fordítási szolgáltatásainak a kulturális örökség területén történő képzéséhez, adaptálásához és teszteléséhez.
Az emberek bevonása a hurokba
Az elkövetkező hónapokban a nyelvi szakemberek és a kulturális örökséggel foglalkozó szakemberek két egymást kiegészítő értékelést végeznek a kísérletek során készített automatikus fordításokról.
A gépi fordítás értékelő eszközét mind a 23 fordítómotor pontosságának és teljesítményének értékelésére használják. Három crowdsourcing kampányt szerveznek a kulturális örökséggel foglalkozó szakemberek bevonására, hogy segítsék az automatikus fordítás tesztelését és értékelését (az e tekintetben értékelendő nyelvek közé tartozik a francia, az olasz és a holland). A kampányok a közönséget is bevonják, és felhívják a kulturális örökséggel foglalkozó közösség figyelmét az automatikus fordítási szolgáltatások erejére. A CrowdHeritage platform az automatikus fordítások bemutatására szolgál azon kulturális örökségi elemekkel összefüggésben, amelyekre vonatkoznak.
Ezen értékelések eredményei hasznos információkkal szolgálnak majd, és felhasználhatók lesznek az Europeana számára történő automatikus fordítások közzétételére és a kulturális örökséget ápoló szervezetek saját platformjain való felhasználásra vonatkozó elfogadható minőségi küszöbérték meghatározásához.
Tudjon meg többet, és vegyen részt
Ha többet szeretne megtudni, nézzen meg egy bevezető videót, egy videót a projekt első eredményeiről, vagy olvassa el az Europeana Translate architektúrát ebben a dokumentumban, amelyet az Európai Gépi Fordító Szövetség 2022-ben mutatott be. Az audiovizuális, divat- és múzeumi szakembereknek lehetőségük lesz arra, hogy hozzájáruljanak a projekthez azáltal, hogy segítenek értékelni a 2023 elején sorra kerülő réspiaci beszerzési kampányaink eredményeit. További információkért látogasson el az Europeana Pro eseményoldalára.
