L-isfida tal-metadata multilingwi
Europeana taħdem b'kollezzjonijiet deskritti f'mhux inqas minn 37 lingwa u tistinka biex tqabbelhom ma' termini ta' tiftix li jistgħu jseħħu fi kwalunkwe lingwa. L-oġġetti kollha fil-kollezzjonijiet fuq is-sit web tal-Europeana huma deskritti f’sett ta’ oqsma tal-metadata li jwasslu informazzjoni essenzjali dwarhom, bħat-titlu u l-kreatur tagħhom. Din l-informazzjoni tgħin lin-nies jiskopru u jifhmu l-oġġetti li huma interessati fihom. Bħalissa, il-maġġoranza tar-rekords fihom termini b’lingwa waħda, il-lingwa tal-fornituri tad-data. Dan in-nuqqas ta’ metadata multilingwi jfixkel l-għan tal-Europeana li toffri aċċess wiesa’ għall-ġbir tagħha fil-lingwi kollha.
L-indirizzar tal-multilingwiżmu f’dan ir-rigward huwa sforz pjuttost ta’ sfida. L-ewwel nett, il-metadata mhijiex lingwa naturali b’sentenzi sħaħ u grammatika prevedibbli; spiss jiġi ppreżentat fi frażijiet qosra jew saħansitra fi kliem wieħed, li jfisser li l-kuntest meħtieġ għal traduzzjoni preċiża huwa diffiċli biex jinstab. Barra minn hekk, it-termini użati jistgħu jkunu speċifiċi ħafna; jistgħu jidhru bħal terminu ġenerali iżda jkollhom tifsira differenti meta jintużaw f’kuntest ta’ wirt kulturali.
Pereżempju, it-terminu reliġjuż Grieg li jirrifletti l-Aħħar Ċena jista' jiġi tradott b'mod żbaljat bħala Ċena Sigrieta. Ir-riperkussjoni ta' din it-traduzzjoni mhux preċiża - jew in-nuqqas totali ta' traduzzjoni għall-Ingliż - tkun li artefatti Griegi b'titlu jew deskrizzjoni li jirreferu għat-tema partikolari ma jidhrux fost ir-riżultati meta xi ħadd ifittex pitturi dwar l-Aħħar Ċena fuq is-sit web tal-Europeana.
Il-bini ta’ pont bejn il-komunitajiet tas-Servizzi Diġitali tal-Europeana u tal-eTranslation
Il-proġett Europeana Translate kif qed jaħdem ma’ partijiet ikkonċernati u għodod oħra biex jindirizza din l-isfida?
Żviluppata mill-Kummissjoni Ewropea, l-eTranslation hija għodda lingwistika maħluqa bl-użu tal-aktar teknoloġiji ġodda tal-IA u ġiet imħarrġa dwar l-ammonti kbar ta’ data disponibbli kemm internament kif ukoll miġbura permezz ta’ sforz ta’ ġbir ta’ riżorsi lingwistiċi madwar l-UE kollha. Fir-repożitorju ELRC-SHARE użat mill-eTranslation DSI, il-wirt kulturali huwa sottorappreżentat, u, b’riżultat ta’ dan, is-soluzzjonijiet teknoloġiċi eżistenti huma inqas mgħammra tajjeb biex jittrattaw l-aspetti speċifiċi tad-data dwar il-wirt kulturali.
F’dan il-kuntest, il-bini ta’ kollaborazzjonijiet bejn il-partijiet ikkonċernati mill-komunitajiet tal-Europeana u tal-eTranslation huwa kruċjali biex jiġu personalizzati l-għodod tat-traduzzjoni awtomatika sabiex ikunu jistgħu jaqdu l-ħtiġijiet partikolari tad-dominju tal-wirt kulturali. Europeana Translate tfittex li tlaqqa’ flimkien il-komunitajiet tal-eTranslation u tal-Europeana biex tindirizza l-isfidi li jiltaqgħu magħhom iż-żewġ setturi. It-titjib tal-aċċess multilingwi għall-wirt kulturali diġitali jeħtieġ għadd ta’ rwoli u għarfien espert komplementari, li huma moqdija mid-diversi sħab ta’ Europeana Translate (arahomhawn).
Esperimenti bi traduzzjoni awtomatika
Matul l-aħħar diversi xhur, is-sħab tal-proġett ħadmu flimkien biex jagħżlu u jissegmentaw b’mod xieraq u jnaddfu r-rekords tal-metadata mis-sit web tal-Europeana. Din id-data mbagħad ġiet sfruttata mis-sieħeb tal-proġett Pangeanic, li użaha flimkien ma’ 12-il miljun segment testwali tat-traduzzjoni minn riżorsi lingwistiċi ġeneriċi eżistenti biex itejjeb il-preċiżjoni tal-algoritmi tat-traduzzjoni awtomatika meta tiġi tradotta l-metadata tal-wirt kulturali.
Pangeanic wettaq għadd ta’ esperimenti li jikkunsidraw kombinazzjonijiet differenti ta’ data dwar it-taħriġ. Dan kien jinkludi metadata bilingwi minn Europeana, data sintetika prodotta minn metadata b’lingwa waħda, u vokabularji multilingwi rilevanti għad-dominju tal-wirt kulturali. Sorsi alternattivi ta’ data, lil hinn mill-Europeana, ġew ikkunsidrati wkoll għal lingwi li għalihom jeżistu ftit jew l-ebda riżorsi bi traduzzjonijiet għall-Ingliż. L-evalwazzjoni awtomatika ta’ dawn l-esperimenti bl-użu ta’ metriċi stabbiliti ppermettiet lis-sħab jiddeċiedu dwar l-istruttura għat-traduzzjonijiet awtomatiċi tal-aħjar kwalità u jqabbluhom mar-riżultati miksuba minn għodod oħra tat-traduzzjoni, bħal Google Translate u eTranslate. B’mod ġenerali, l-evalwazzjoni turi titjib fir-riżultati meta mqabbla ma’ mudelli ġeneriċi għall-biċċa l-kbira tal-lingwi.
Il-magni tat-traduzzjoni awtomatika li jirriżultaw minn dan il-proċess se jintużaw biex jittraduċu l-metadata mit-23 lingwa uffiċjali tal-UE għall-Ingliż (l-24 lingwa uffiċjali). Dawn il-magni tat-traduzzjoni se jintużaw biex jiġġeneraw traduzzjonijiet awtomatiċi bl-Ingliż għal mill-inqas 25 miljun rekord ta’ metadata fuq il-pjattaforma Europeana. It-traduzzjonijiet se jiġu indiċjati u murija, u b’hekk tittejjeb l-esperjenza multilingwi tal-utenti fuq il-pjattaforma Europeana. Filwaqt li jirrevedu l-persuna li tfittex artefatti ispirati mit-tema reliġjuża tal-'Aħħar Ċena', wara t-tlestija tal-Europeana Translate, se jkunu jistgħu jaċċessaw ukoll pitturi mill-Greċja, ir-Rumanija u ħafna pajjiżi oħra li bħalissa mhumiex inklużi fir-riżultati tat-tfittxija.
Barra minn hekk, Europeana Translate se tagħmel disponibbli b’mod miftuħ ir-riżorsi lingwistiċi magħżula u pproċessati kif xieraq li pproduċiet permezz tar-repożitorju ELRC-SHARE taħt liċenzja ta’ użu mill-ġdid mingħajr ħlas (CC0). Dan se jippermetti lill-komunità tat-traduzzjoni awtomatika tagħmel użu minn data miftuħa biex tħarreġ, tadatta u tittestja s-servizzi tat-traduzzjoni tagħha fil-qasam tal-wirt kulturali.
L-involviment tal-bnedmin fiċ-ċirku
Fix-xhur li ġejjin, żewġ evalwazzjonijiet komplementari tat-traduzzjonijiet awtomatiċi prodotti mill-esperimenti se jitwettqu minn lingwisti u professjonisti tal-wirt kulturali.
L-Għodda għall-Evalwazzjoni tat-Traduzzjoni Awtomatika se tintuża biex tevalwa l-preċiżjoni u l-prestazzjoni tat-23 magna tat-traduzzjoni kollha. Se jiġu organizzati tliet kampanji ta’ crowdsourcing biex jinvolvu professjonisti tal-wirt kulturali biex jgħinu fl-ittestjar u l-evalwazzjoni tat-traduzzjoni awtomatika (il-lingwi li għandhom jiġu evalwati f’dan ir-rigward jinkludu l-Franċiż, it-Taljan u l-Olandiż). Il-kampanji se jinvolvu wkoll lill-udjenzi u jqajmu kuxjenza fil-komunità tal-wirt kulturali dwar is-setgħa tas-servizzi tat-traduzzjoni awtomatika. Il-pjattaforma CrowdHeritage se tintuża biex tippreżenta t-traduzzjonijiet awtomatiċi fil-kuntest tal-oġġetti tal-wirt kulturali li jirreferu għalihom.
Ir-riżultati ta’ dawn l-evalwazzjonijiet se jipprovdu għarfien utli u se jintużaw biex jiġi ddeterminat il-limitu ta’ kwalità aċċettabbli għall-pubblikazzjoni ta’ traduzzjonijiet awtomatiċi lill-Europeana u għall-użu fuq il-pjattaformi proprji tal-organizzazzjonijiet tal-wirt kulturali.
Skopri aktar u involvi ruħek
Biex issir taf aktar, tista’ tara filmat introduttorju, filmat dwar l-ewwel riżultati tal-proġett, jew taqra dwar l-arkitettura Europeana Translate f’dan id-dokument ippreżentat fl-Assoċjazzjoni Ewropea għat-Traduzzjoni Awtomatika 2022. Il-professjonisti fil-qasam awdjoviżiv, tal-moda u tal-mużewijiet se jkollhom l-opportunità li jikkontribwixxu għall-proġett billi jgħinu fl-evalwazzjoni tar-riżultati fil-kampanji tagħna ta’ provenjenza niċċa, li se jseħħu fil-bidu tal-2023. Żomm għajnejk fuq il-paġna tal-avveniment tal-Europeana Pro biex issir taf aktar.
