2016 m. pradėta transkribavimo platforma buvo toliau plėtojama vykdant du bendrųjų paslaugų projektus: „Enrich Europeana“ (2018–2020 m.) ir „Enrich Europeana Plus“ (2021–2023 m.). Platforma leidžia savanoriams transkribuoti ranka rašytus istorinius tekstus įvairiomis kalbomis ir iš skirtingų istorinių laikotarpių, naudojant tik savo kompiuterį. Nuo projektų pradžios savanoriai perrašė daugiau kaip 372 000 dokumentų ir pavertė juos skaitmeninėmis tekstinėmis rinkmenomis, taip padėdami išplėsti ir praturtinti didžiules „Europeanos“ skaitmeninio kultūros paveldo objektų kolekcijas.
2021 m. įgyvendinant projektą „Enrich Europeana Plus“ pradėta atnaujinti transkribavimo platformą, įdiegiant pažangią rašysenos atpažinimo technologiją, pagal kurią automatinėms transkripcijoms, kurias vėliau gali patikrinti savanoriai, teikti naudojamas dirbtinis intelektas. Vienas didžiausių tokių technologijų tiekėjų yra Europos kooperatinė bendrovė „READ-COOP“, valdanti populiarią programinę įrangą „Transkribus“. "Enrich Europeana Plus" keletą mėnesių dirbo su "RED-COOP" ir integravo savo technologijas į "Transcribathon" platformą.
Transkribavimo maratono susiejimas su „metagrafo“ API
Programinė įranga „Transkribus“, sukurta įgyvendinant ES finansuojamą projektą, kuriam vadovauja Insbruko universitetas, suteikia galimybę masiškai automatiškai transkribuoti istorinius ranka rašytus dokumentus. Technologija naudoja dirbtinį intelektą, kad „išmoktų“, kaip skaityti konkrečių tipų rašyseną, ir tada įgyvendina šias žinias, kad sukurtų automatines tekstų transkripcijas. Tai labai pagreitina transkripcijos procesą: transkribuotojas nebeturi praleisti valandų rašydamas transkripciją nuo nulio, nes vietoj to jie gali patikrinti automatinę transkripciją.
Rankraščio atpažinimo technologija, tokia kaip "Transkribus", yra ypač ideali piliečių mokslo projektams. Kuo lengviau tuos dokumentus perrašyti, tuo daugiau dokumentų savanoriai gali apdoroti per tam tikrą laikotarpį ir tuo greičiau galima praplėsti Europeanos svetainę. Todėl "Transcribathon" komanda norėjo įdiegti šią technologiją į platformą.
Šiuo tikslu jie nusprendė naudoti READ-COOP metagrafo API, kad Transcribathon galėtų naudotis „Transkribus“ technologija. API yra programinės įrangos dalis, kuri veikia kaip pasiuntinys tarp dviejų skirtingų platformų. Kažkas prašo informacijos vienoje platformoje, o platforma siunčia šį prašymą kitos platformos API. Kai ši antroji platforma atsako į užklausą, API grąžina ją į pirmąją platformą ir asmuo gauna reikiamą informaciją.
Transcribathon platforma naudoja metagrafo API būtent tokiu būdu. Kai savanoris nori gauti automatinę teksto transkripciją,jie to prašo transkribavimo platformoje. Tada transkribavimo maratonas siunčia šį prašymą į metagrafo API, kuri naudoja rašysenos atpažinimo technologiją, kad apdorotų vaizdą ir sugeneruotų automatinę transkripciją. Galiausiai, užbaigus apdorojimą, Transkripcijos platforma gali pasiekti transkripciją ir parodyti ją savanoriui, vėlgi per metagrafo API.
Metagrafo API ne tik pateikia transkripciją, bet ir kiekvienos linijos ar net žodžio koordinates, rastas paveikslėlyje - tai, kas nebuvo įmanoma senojoje Transkribavimo versijoje. Ši funkcija leidžia tada naudoti transkripcijas kitoms programoms, pvz., Paryškinti atitinkamus raktinius žodžius tekste viso teksto paieškos metu.
Patobulintas transkripcijos redaktorius
"Transcribathon" technologijos atnaujinimas reiškė, kad transkripcijos redaktorius - dalis, kurią savanoris naudoja savo transkripcijoms įvesti - nebegalėjo susidoroti su turtingesniu duomenų formatu, kurį jis gavo iš metagrafo API. Todėl READ-COOP sukūrė pasirinktinį transkripcijos redaktorių Transcribathon. Tai leidžia žmonėms spustelėti transkripcijos eilutę ir pamatyti atitinkamą eilutę teksto paveikslėlyje.
Norėdami pagreitinti procesą, READ-COOP paėmė esamą redaktorių "Transkribus" programinėje įrangoje, pakeitė jį, kad atitiktų "Transcribathon" reikalavimus, ir pavertė jį valdikliu. Tada valdiklis buvo tiesiog įdėtas į Transcribathon platformą, kad vartotojai galėtų pasiekti ir redaguoti metagrafo API sukurtas transkripcijas. Naudojant esamą "Transkribus" redaktorių ir tiesiog jį keičiant taip pat sutaupyta brangaus kūrimo laiko ir išlaidų.
Bendradarbiavimo galia
Šie technologiniai atnaujinimai perkelia "Transcribathon" į kitą lygį. Užuot kūrę daug laiko reikalaujančias transkripcijas nuo nulio, savanoriai dabar gali tiesiog ištaisyti automatiškai sukurtas transkripcijas naujajame transkripcijos redaktoriuje, padėdami jiems apdoroti daug daugiau dokumentų.
Šiuo metu „READ-COOP“ moko ranka rašytus teksto atpažinimo DI modelius, remdamasi Transkribavimo maratone jau transkribuota medžiaga arba medžiaga, kuri netrukus bus transkribuota. Kuo geriau DI modelis pritaikomas prie fokusuojamos medžiagos, tuo tikslesnės bus automatinės transkripcijos.
Pavyzdžiui, viename būsimame transkribavimo bėgime bus nuskaitytos Zagrebo valstybinio archyvo davinio kortelės, kurios Antrojo pasaulinio karo metu (nuo 1941 m. 1945 m.) buvo naudojamos kaip maisto ir kitų išteklių normavimo forma. Kortelėse pateikiami demografiniai ir socialiniai bei ekonominiai rodikliai asmenims ir (arba) namų ūkiams, pvz., titulai, darbo vietos, todėl jos yra turtingas mokslinių tyrimų medžiagos šaltinis.
READ-COOP surengė internetinį seminarą su archyvo darbuotojais, kad parodytų jiems, kaip parengti mokymo duomenis. Tada šie mokymo duomenys bus naudojami rašymo ranka modeliui mokyti arba „mokyti“ variklį, kaip skaityti šio tipo dokumentus, kad jis galėtų pateikti tikslesnes transkripcijas važiavimo metu. Tai kartu su savanorių korektūros įgūdžiais turėtų suteikti Zagrebo archyvui galimybę skaitmeninti daugiau dokumentų nei bet kada anksčiau.
Sužinokite daugiau
Šiame vaizdo įraše galite peržiūrėti internetinį seminarą apie tai, kaip parengti mokymo duomenis. Transkribavimo platformoje rasite automatinio rankraštinio teksto atpažinimo redaktoriaus integravimą ir galėsite patikrinti pirmuosius Dublino dokumentų rezultatus.
Šį pranešimą parašė Fiona Park, turinio vadybininkas READ-COOP SCE ir Philip Kahle, programinės įrangos kūrėjas, READ COOP.
