Prejsť na míľu "eXXtra": nové technológie na obohacovanie údajov o kultúrnom dedičstve

Zverejnené 27. júna 2022 od

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Umožnenie automatického prekladu pre obohatenie

Nástroj API vyvinutý projektovým partnerom Pangeanic detekuje jazyk používaný v metaúdajoch Europeany a umožňuje jeho strojový preklad. Tento nástroj s názvom Služba automatického prekladu metaúdajov dedičstva (HM ATS) je súčasťou súboru nástrojov na sémantické obohacovanie vyvinutých Europeanou XX.

Na vytvorenie nástroja Pangeanic postavil 10 neurónových strojových prekladačov (preklad z taliančiny, nemčiny, češtiny, gréčtiny, francúzštiny, švédčiny, katalánčiny, holandčiny, poľštiny a španielčiny do angličtiny). Využívali trénovacie údaje z vlastných archívov spoločnosti Pangeanic a otvorené údaje na internete. Pangeanic tiež zamestnala prekladateľov na preklad obmedzeného množstva záznamov z archívov Europeany s cieľom získať špecifické údaje o odbornej príprave Europeany pre niekoľko jazykov.

Nástroj bol použitý na preklad a obohatenie približne dva a pol milióna záznamov počas projektu. Pangeanic úspešne rozšíril a doladil nástroj tak, aby vyhovoval výkonnostným požiadavkám takého obrovského objemu údajov. Použite API kód sami.

Na hodnotenie a validáciu kvality strojového prekladu partneri zriadili aj systém validácie prekladu (založený na systéme LabelStudio). Odborníci v oblasti kultúrneho dedičstva a rodení hovorcovia príslušných jazykov potvrdili prostredníctvom tohto systému viac ako 2 700 prekladov. Spätná väzba bola prevažne pozitívna, čo potvrdzuje vysokú kvalitu neurónového strojového prekladu a to, že funguje dobre pre oblasť digitálneho kultúrneho dedičstva.

Overené preklady sa použijú na ďalšie zlepšenie nástrojov strojového prekladu v rámci projektu Europeana Translate, do ktorého je zapojená aj spoločnosť Pangeanic. Cieľom tohto projektu je pomôcť Europeane napredovať vo vykonávaní jej viacjazyčnej stratégie poskytovaním prekladov metaúdajov, ktoré umožnia lepšie vyhľadávanie a zobrazovanie jej zbierok v ich rodných jazykoch a jazykoch používateľov.

Obohatenie súborov údajov

SAGE, webový nástroj na výrobu, obohacovanie, publikovanie, prístup k súborom údajov RDF a ich správu, vyvinula Národná technická univerzita v Aténach (NTUA) pre Europeanu XX. RDF (Rámec opisu zdrojov) je jazyk, ktorý sa používa na reprezentáciu obsahu súboru údajov. Údaje RDF možno priamo importovať alebo generovať z rôznych zdrojov a formátov údajov, usporiadať do súborov údajov a obohatiť pomocou anotátorov. Tieto obohatenia sa potom môžu manuálne validovať. Všetky súbory údajov vrátane akýchkoľvek poznámok môžu byť uverejnené v obchodoch RDF, indexované a prístupné prostredníctvom hovorov API.

Vďaka SAGE môžu byť vybrané časti publikovaných súborov údajov teraz anotované a obohatené aj prostredníctvom externých služieb API, ako sú nástroje spájajúce údaje s príslušnými Wikiúdajmi, DBPedia, Geonames a inými zdrojmi alebo nástroje, ktoré zisťujú výskyt slovných pojmov v údajoch. Po obohatení v SAGE sa potom manuálne validujú prostredníctvom systému, ktorý umožňuje hromadné validácie pomocou zoskupovania textu a triedenia frekvencie textu, priradenia úloh validácie viacerým používateľom a dôkladného monitorovania celkového procesu validácie.

Nástroj SAGE bol tiež použitý v projekte Pagode na automatické obohatenie viac ako 20 000 záznamov. Bude sa používať aj v projekte CRAFTED na analýzu polí metaúdajov a textu extrahovaného z nástrojov na analýzu obsahu umelej inteligencie s cieľom identifikovať a odstrániť neistotu pomenovaných subjektov. Konečným cieľom je obohatiť viac ako 100 000 záznamov a umožniť overenie používateľov a posúdenie automaticky extrahovaných subjektov.

Ďalšie informácie

Všetky nástroje vyvinuté v rámci projektu Europeana XX (a iných projektov všeobecných služieb) môžete preskúmať na stránke Služby a nástroje Europeany.

Prejsť na míľu "eXXtra": nové technológie na obohacovanie údajov o kultúrnom dedičstve

Zdieľať

Umožnenie automatického prekladu pre obohatenie

Obohatenie súborov údajov

Ďalšie informácie