Umožnenie automatického prekladu pre obohatenie
Nástroj API vyvinutý projektovým partnerom Pangeanic detekuje jazyk používaný v metaúdajoch Europeany a umožňuje jeho strojový preklad. Tento nástroj s názvom Služba automatického prekladu metaúdajov dedičstva (HM ATS) je súčasťou súboru nástrojov na sémantické obohacovanie vyvinutých Europeanou XX.
Na vytvorenie nástroja Pangeanic postavil 10 neurónových strojových prekladačov (preklad z taliančiny, nemčiny, češtiny, gréčtiny, francúzštiny, švédčiny, katalánčiny, holandčiny, poľštiny a španielčiny do angličtiny). Využívali trénovacie údaje z vlastných archívov spoločnosti Pangeanic a otvorené údaje na internete. Pangeanic tiež zamestnala prekladateľov na preklad obmedzeného množstva záznamov z archívov Europeany s cieľom získať špecifické údaje o odbornej príprave Europeany pre niekoľko jazykov.
Nástroj bol použitý na preklad a obohatenie približne dva a pol milióna záznamov počas projektu. Pangeanic úspešne rozšíril a doladil nástroj tak, aby vyhovoval výkonnostným požiadavkám takého obrovského objemu údajov. Použite API kód sami.
Na hodnotenie a validáciu kvality strojového prekladu partneri zriadili aj systém validácie prekladu (založený na systéme LabelStudio). Odborníci v oblasti kultúrneho dedičstva a rodení hovorcovia príslušných jazykov potvrdili prostredníctvom tohto systému viac ako 2 700 prekladov. Spätná väzba bola prevažne pozitívna, čo potvrdzuje vysokú kvalitu neurónového strojového prekladu a to, že funguje dobre pre oblasť digitálneho kultúrneho dedičstva.
Overené preklady sa použijú na ďalšie zlepšenie nástrojov strojového prekladu v rámci projektu Europeana Translate, do ktorého je zapojená aj spoločnosť Pangeanic. Cieľom tohto projektu je pomôcť Europeane napredovať vo vykonávaní jej viacjazyčnej stratégie poskytovaním prekladov metaúdajov, ktoré umožnia lepšie vyhľadávanie a zobrazovanie jej zbierok v ich rodných jazykoch a jazykoch používateľov.
Obohatenie súborov údajov
SAGE, webový nástroj na výrobu, obohacovanie, publikovanie, prístup k súborom údajov RDF a ich správu, vyvinula Národná technická univerzita v Aténach (NTUA) pre Europeanu XX. RDF (Rámec opisu zdrojov) je jazyk, ktorý sa používa na reprezentáciu obsahu súboru údajov. Údaje RDF možno priamo importovať alebo generovať z rôznych zdrojov a formátov údajov, usporiadať do súborov údajov a obohatiť pomocou anotátorov. Tieto obohatenia sa potom môžu manuálne validovať. Všetky súbory údajov vrátane akýchkoľvek poznámok môžu byť uverejnené v obchodoch RDF, indexované a prístupné prostredníctvom hovorov API.
Vďaka SAGE môžu byť vybrané časti publikovaných súborov údajov teraz anotované a obohatené aj prostredníctvom externých služieb API, ako sú nástroje spájajúce údaje s príslušnými Wikiúdajmi, DBPedia, Geonames a inými zdrojmi alebo nástroje, ktoré zisťujú výskyt slovných pojmov v údajoch. Po obohatení v SAGE sa potom manuálne validujú prostredníctvom systému, ktorý umožňuje hromadné validácie pomocou zoskupovania textu a triedenia frekvencie textu, priradenia úloh validácie viacerým používateľom a dôkladného monitorovania celkového procesu validácie.
Nástroj SAGE bol tiež použitý v projekte Pagode na automatické obohatenie viac ako 20 000 záznamov. Bude sa používať aj v projekte CRAFTED na analýzu polí metaúdajov a textu extrahovaného z nástrojov na analýzu obsahu umelej inteligencie s cieľom identifikovať a odstrániť neistotu pomenovaných subjektov. Konečným cieľom je obohatiť viac ako 100 000 záznamov a umožniť overenie používateľov a posúdenie automaticky extrahovaných subjektov.
Ďalšie informácie
Všetky nástroje vyvinuté v rámci projektu Europeana XX (a iných projektov všeobecných služieb) môžete preskúmať na stránke Služby a nástroje Europeany.
