Umožnění automatického překladu pro obohacení
Nástroj API vyvinutý projektovým partnerem Pangeanic detekuje jazyk používaný v metadatech Europeany a umožňuje jeho strojový překlad. Tento nástroj nazvaný Heritage Metadata Automatic Translation Service (HM ATS) je součástí sady nástrojů pro sémantické obohacování vyvinutých Europeanou XX.
K vytvoření nástroje Pangeanic vytvořil 10 neuronových strojových překladačů (překládajících italštinu, němčinu, češtinu, řečtinu, francouzštinu, švédštinu, katalánštinu, nizozemštinu, polštinu a španělštinu do angličtiny). Používali údaje o školení z vlastních úložišť společnosti Pangeanic a veřejně přístupná data na internetu. Pangeanic také zaměstnával překladatele, kteří překládali omezené množství záznamů z úložišť Europeany, aby měli k dispozici specifické vzdělávací údaje Europeany pro několik jazyků.
Nástroj byl použit k překladu a obohacení přibližně dvou a půl milionu záznamů během projektu. Pangeanic úspěšně rozšířil a vyladil nástroj tak, aby vyhovoval požadavkům na výkon tak obrovského objemu dat. Kód API používejte sami.
Za účelem vyhodnocení a ověření kvality strojového překladu partneři rovněž zřídili systém ověřování překladu (založený na LabelStudio). Odborníci na kulturní dědictví a rodilí mluvčí příslušných jazyků ověřili pomocí tohoto systému více než 2 700 překladů. Zpětná vazba byla v drtivé většině pozitivní, což potvrzuje vysokou kvalitu neuronového strojového překladu a to, že funguje dobře v oblasti digitálního kulturního dědictví.
Potvrzené překlady budou použity k dalšímu zlepšení strojových překladačů v rámci projektu Europeana Translate, do něhož je zapojena i společnost Pangeanic. Cílem tohoto projektu je pomoci Europeaně pokročit v provádění její vícejazyčné strategie tím, že poskytne překlady metadat, které umožní lepší vyhledávání a zobrazování jejích sbírek v jejich rodných jazycích a jazycích uživatelů.
Obohacení datových souborů
SAGE, internetový nástroj pro tvorbu, obohacování, publikování, přístup k datovým souborům RDF a jejich správu, byl vyvinut Národní technickou univerzitou v Aténách (NTUA) pro Europeanu XX. RDF (resource description framework) je jazyk používaný k reprezentaci obsahu datového souboru. Data RDF mohou být přímo importována nebo generována z různých zdrojů a formátů dat, uspořádána do datových souborů a obohacena pomocí anotátorů. Tato obohacení pak mohou být ručně validována. Všechny datové sady, včetně jakýchkoli anotací, mohou být publikovány v úložištích RDF, indexovány a přístupné prostřednictvím volání API.
Díky SAGE mohou být vybrané části publikovaných datových souborů nyní také anotovány a obohaceny prostřednictvím externích API služeb, jako jsou nástroje propojující data s příslušnými Wikidaty, DBPedií, Geonames a dalšími zdroji nebo nástroje, které detekují výskyt slovní zásoby v datech. Jakmile jsou obohacení provedena v SAGE, jsou ručně validována prostřednictvím systému, který umožňuje hromadné validace pomocí seskupování textu a třídění textových frekvencí, přiřazení ověřovacích úkolů více uživatelům a pečlivého sledování celkového procesu validace.
Nástroj SAGE byl také použit v projektu Pagode k automatickému obohacení více než 20 000 záznamů. Bude také použit v projektu CRAFTED k analýze polí metadat a textu extrahovaného z nástrojů pro analýzu obsahu umělé inteligence s cílem identifikovat a odstranit nejistotu u pojmenovaných subjektů. Konečným cílem je obohatit více než 100 000 záznamů a umožnit validaci uživatelů a hodnocení automaticky extrahovaných subjektů.
Zjistit více
Všechny nástroje vyvinuté v rámci projektu Europeana XX (a dalších projektů generických služeb) si můžete prohlédnout na stránce Služby a nástroje Europeany.
