Jít "eXXtra" míli: nové technologie pro obohacování údajů o kulturním dědictví

Publikováno 27. června 2022 podle

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Umožnění automatického překladu pro obohacení

Nástroj API vyvinutý projektovým partnerem Pangeanic detekuje jazyk používaný v metadatech Europeany a umožňuje jeho strojový překlad. Tento nástroj nazvaný Heritage Metadata Automatic Translation Service (HM ATS) je součástí sady nástrojů pro sémantické obohacování vyvinutých Europeanou XX.

K vytvoření nástroje Pangeanic vytvořil 10 neuronových strojových překladačů (překládajících italštinu, němčinu, češtinu, řečtinu, francouzštinu, švédštinu, katalánštinu, nizozemštinu, polštinu a španělštinu do angličtiny). Používali údaje o školení z vlastních úložišť společnosti Pangeanic a veřejně přístupná data na internetu. Pangeanic také zaměstnával překladatele, kteří překládali omezené množství záznamů z úložišť Europeany, aby měli k dispozici specifické vzdělávací údaje Europeany pro několik jazyků.

Nástroj byl použit k překladu a obohacení přibližně dvou a půl milionu záznamů během projektu. Pangeanic úspěšně rozšířil a vyladil nástroj tak, aby vyhovoval požadavkům na výkon tak obrovského objemu dat. Kód API používejte sami.

Za účelem vyhodnocení a ověření kvality strojového překladu partneři rovněž zřídili systém ověřování překladu (založený na LabelStudio). Odborníci na kulturní dědictví a rodilí mluvčí příslušných jazyků ověřili pomocí tohoto systému více než 2 700 překladů. Zpětná vazba byla v drtivé většině pozitivní, což potvrzuje vysokou kvalitu neuronového strojového překladu a to, že funguje dobře v oblasti digitálního kulturního dědictví.

Potvrzené překlady budou použity k dalšímu zlepšení strojových překladačů v rámci projektu Europeana Translate, do něhož je zapojena i společnost Pangeanic. Cílem tohoto projektu je pomoci Europeaně pokročit v provádění její vícejazyčné strategie tím, že poskytne překlady metadat, které umožní lepší vyhledávání a zobrazování jejích sbírek v jejich rodných jazycích a jazycích uživatelů.

Obohacení datových souborů

SAGE, internetový nástroj pro tvorbu, obohacování, publikování, přístup k datovým souborům RDF a jejich správu, byl vyvinut Národní technickou univerzitou v Aténách (NTUA) pro Europeanu XX. RDF (resource description framework) je jazyk používaný k reprezentaci obsahu datového souboru. Data RDF mohou být přímo importována nebo generována z různých zdrojů a formátů dat, uspořádána do datových souborů a obohacena pomocí anotátorů. Tato obohacení pak mohou být ručně validována. Všechny datové sady, včetně jakýchkoli anotací, mohou být publikovány v úložištích RDF, indexovány a přístupné prostřednictvím volání API.

Díky SAGE mohou být vybrané části publikovaných datových souborů nyní také anotovány a obohaceny prostřednictvím externích API služeb, jako jsou nástroje propojující data s příslušnými Wikidaty, DBPedií, Geonames a dalšími zdroji nebo nástroje, které detekují výskyt slovní zásoby v datech. Jakmile jsou obohacení provedena v SAGE, jsou ručně validována prostřednictvím systému, který umožňuje hromadné validace pomocí seskupování textu a třídění textových frekvencí, přiřazení ověřovacích úkolů více uživatelům a pečlivého sledování celkového procesu validace.

Nástroj SAGE byl také použit v projektu Pagode k automatickému obohacení více než 20 000 záznamů. Bude také použit v projektu CRAFTED k analýze polí metadat a textu extrahovaného z nástrojů pro analýzu obsahu umělé inteligence s cílem identifikovat a odstranit nejistotu u pojmenovaných subjektů. Konečným cílem je obohatit více než 100 000 záznamů a umožnit validaci uživatelů a hodnocení automaticky extrahovaných subjektů.

Zjistit více

Všechny nástroje vyvinuté v rámci projektu Europeana XX (a dalších projektů generických služeb) si můžete prohlédnout na stránce Služby a nástroje Europeany.

Jít "eXXtra" míli: nové technologie pro obohacování údajů o kulturním dědictví

sdílet

Umožnění automatického překladu pro obohacení

Obohacení datových souborů

Zjistit více