Automatikus fordítás lehetővé tétele a gazdagodás érdekében
A Pangeanic projektpartner által kifejlesztett API eszköz felismeri az Europeana metaadataiban használt nyelvet, és lehetővé teszi annak gépi fordítását. A Heritage Metadata Automatic Translation Service (HM ATS) elnevezésű eszköz az Europeana XX által kifejlesztett szemantikai dúsító eszközcsomag része.
Az eszköz létrehozásához Pangeanic 10 neurális gépi fordítómotort épített (olasz, német, cseh, görög, francia, svéd, katalán, holland, lengyel és spanyol fordítás angolra). A Pangeanic saját adattáraiból származó képzési adatokat és az interneten elérhető nyílt adatokat használták fel. A Pangeanic fordítókat is alkalmazott, hogy korlátozott mennyiségű nyilvántartást fordítsanak le az Europeana adattáraiból annak érdekében, hogy több nyelven is rendelkezzenek az Europeana speciális képzési adataival.
Az eszközt körülbelül két és fél millió rekord lefordítására és gazdagítására használták a projekt során. A Pangeanic sikeresen kiterjesztette és finomította az eszközt, hogy illeszkedjen egy ilyen hatalmas adatmennyiség teljesítménykövetelményeihez. Használd az API kódot magad.
A gépi fordítás minőségének értékelésére és érvényesítésére a partnerek fordításellenőrző rendszert is létrehoztak (a LabelStudioalapján). A kulturális örökséggel foglalkozó szakemberek és a releváns nyelvek anyanyelvi beszélői több mint 2700 fordítást validáltak ezzel a rendszerrel. A visszajelzések túlnyomórészt pozitívak voltak, megerősítve a neurális gépi fordítás magas minőségét és azt, hogy jól működik a digitális kulturális örökség területén.
Az Europeana Translate projektben, amelyben a Pangeanic is részt vesz, validált fordításokat fognak használni a gépi fordítómotorok további fejlesztésére. E projekt célja, hogy segítse az Europeanát többnyelvű stratégiájának végrehajtásában azáltal, hogy olyan metaadat-fordításokat biztosít, amelyek lehetővé teszik gyűjteményeinek jobb keresését és megjelenítését az anyanyelvükön és a felhasználók nyelvein.
Adatkészletek gazdagítása
A SAGE-t, az RDF-adatkészletek előállítására, gazdagítására, közzétételére, elérésére és kezelésére szolgáló webalapú eszközt az Athéni Nemzeti Műszaki Egyetem (NTUA) fejlesztette ki az Europeana XX számára. Az RDF (resource description framework - erőforrás-leíró keretrendszer) egy olyan nyelv, amelyet az adatkészlet tartalmának megjelenítésére használnak. Az RDF-adatok közvetlenül importálhatók vagy előállíthatók különböző adatforrásokból és formátumokból, adatkészletekbe rendezhetők, és annotátorok segítségével bővíthetők. Ezek a dúsítások manuálisan validálhatók. Minden adatkészlet, beleértve a jegyzeteket is, közzétehető az RDF-tárolókban, indexelhető és elérhető API-hívásokon keresztül.
A SAGE-nek köszönhetően a közzétett adatkészletek kiválasztott részei most már külső API-szolgáltatásokon keresztül is magyarázhatók és bővíthetők, például olyan eszközökkel, amelyek összekapcsolják az adatokat a vonatkozó Wikidatával, DBPedia-val, Geonames-szel és más erőforrásokkal, vagy olyan eszközökkel, amelyek észlelik a szókincs kifejezések előfordulását az adatokban. Miután a dúsításokat elvégezték a SAGE-ben, azokat manuálisan validálják egy olyan rendszeren keresztül, amely lehetővé teszi a tömeges validálást szövegcsoportosítással és szövegfrekvencia-válogatással, a validálási feladatok több felhasználóhoz való hozzárendelésével, valamint a teljes validálási folyamat szoros nyomon követésével.
A SAGE eszközt a Pagode projektben is használták, hogy automatikusan több mint 20 000 rekordot gazdagítsanak. A CRAFTED projektben a mesterségesintelligencia-tartalomelemző eszközökből kinyert metaadatmezők és szövegek elemzésére is felhasználják a megnevezett szervezetek bizonytalanságának azonosítása és megszüntetése érdekében. A végső cél az, hogy több mint 100 000 rekordot gazdagítsanak, és lehetővé tegyék az automatikusan kinyert egységek felhasználói érvényesítését és értékelését.
Tudjon meg többet
Az Europeana XX projekt (és más általános szolgáltatási projektek) keretében kifejlesztett összes eszközt az Europeana szolgáltatások és eszközök oldalán tekintheti meg.
