Lansată în 2016, platforma Transcribathon a fost dezvoltată în continuare prin două proiecte de servicii generice: Enrich Europeana (2018-2020) și Enrich Europeana Plus (2021-2023). Platforma permite voluntarilor să transcrie texte istorice scrise de mână în diferite limbi și din diferite perioade istorice, folosind doar computerul lor. De la începutul proiectelor, peste 372 000 de documente au fost transcrise de voluntari și transformate în fișiere text digitale, contribuind la extinderea și îmbogățirea vastelor colecții de obiecte de patrimoniu cultural digital ale Europeana.
În 2021, proiectul Enrich Europeana Plus a început să actualizeze platforma Transcribathon cu o tehnologie avansată de recunoaștere a scrierii de mână, care utilizează inteligența artificială pentru a furniza transcrieri automate care pot fi apoi verificate de voluntari. Unul dintre cei mai mari furnizori de astfel de tehnologii este READ-COOP, o societate cooperativă europeană care gestionează popularul software Transkribus. Enrich Europeana Plus a petrecut câteva luni lucrând cu READ-COOP și încorporând tehnologia lor în platforma Transcribathon.
Corelarea Transcribathon cu API „metagrapho”
Dezvoltat ca parte a unui proiect finanțat de UE și condus de Universitatea din Innsbruck, software-ul Transkribus permite transcrierea automată în masă a documentelor istorice scrise de mână. Tehnologia utilizează IA pentru a „învăța” cum să citească anumite tipuri de scris de mână și apoi pune în aplicare aceste cunoștințe pentru a crea transcrieri automate ale textelor. Acest lucru accelerează dramatic procesul de transcriere: transcriptorul nu mai trebuie să petreacă ore întregi scriind o transcriere de la zero, deoarece poate, în schimb, să corecteze transcrierea automată.
Tehnologia de recunoaștere a scrisului de mână, cum ar fi Transkribus, este deosebit de ideală pentru proiectele științifice cetățenești. Cu cât transcrierea acestor documente este mai ușoară, cu atât voluntarii pot prelucra mai multe documente într-un anumit interval de timp și cu atât mai rapid poate fi îmbogățit site-ul web Europeana. Prin urmare, echipa Transcribathon a dorit să implementeze această tehnologie în platformă.
În acest scop, au decis să utilizeze API-ul metagrafic al READ-COOP pentru a permite Transcribathon să acceseze tehnologia Transkribus. Un API este o piesă de software care acționează ca un mesager între două platforme diferite. Cineva solicită informații pe o platformă, iar platforma trimite această solicitare la API-ul unei alte platforme. Odată ce această a doua platformă are un răspuns la cerere, API-ul îl aduce înapoi la prima platformă și persoana primește informațiile de care are nevoie.
Platforma Transcribathon utilizează API-ul metagrapho exact în acest fel. Când un voluntar dorește să obțină o transcriere automată a unui text, solicită acest lucru pe platforma Transcribathon. Transcribathon trimite apoi această solicitare către metagrapho API, care utilizează tehnologia de recunoaștere a scrisului de mână pentru a procesa imaginea și a genera o transcriere automată. În cele din urmă, odată ce procesarea este completă, platforma Transcribathon poate accesa transcrierea și o poate arăta voluntarului, din nou prin intermediul API-ului metagrapho.
API-ul metagrafic oferă nu numai transcrierea, ci și coordonatele pentru fiecare linie sau chiar cuvântul găsit în imagine - ceea ce nu a fost posibil în vechea versiune a Transcribathon. Această caracteristică face posibilă utilizarea transcrierilor pentru alte aplicații, cum ar fi evidențierea cuvintelor cheie potrivite în text în timpul unei căutări în text complet.
Un editor de transcriere îmbunătățit
Actualizarea tehnologiei din spatele Transcribathon a însemnat că editorul de transcriere - partea pe care un voluntar o folosește pentru a-și introduce transcrierile - nu mai era capabil să facă față formatului de date mai bogat pe care îl primea înapoi de la API-ul metagraf. Prin urmare, READ-COOP a construit un editor de transcriere personalizat pentru Transcribathon. Acest lucru permite oamenilor să facă clic pe o linie a transcrierii și să vadă linia corespunzătoare din imaginea textului.
Pentru a accelera procesul, READ-COOP a luat editorul existent în software-ul Transkribus, l-a modificat pentru a se potrivi cerințelor Transcribathon și l-a transformat într-un widget. Widgetul a fost apoi pur și simplu introdus în platforma Transcribathon, permițând utilizatorilor să acceseze și să editeze transcrierile generate de API-ul metagrapho. Folosind editorul Transkribus existent și pur și simplu modificându-l, s-au economisit, de asemenea, timp prețios de dezvoltare și costuri.
Puterea colaborării
Aceste actualizări tehnologice duc Transcribathon la nivelul următor. În loc să creeze transcrieri consumatoare de timp de la zero, voluntarii pot acum să corecteze pur și simplu transcrierile generate automat în noul editor de transcrieri, ajutându-i să proceseze mai multe documente în timpul unei alergări.
READ-COOP antrenează în prezent modelele de IA de recunoaștere a textului scris de mână pe baza materialelor deja transcrise sau a materialelor care urmează să fie transcrise în curând în Transcribathon. Cu cât modelul IA este mai bine adaptat la materialul vizat, cu atât mai precise vor fi transcrierile automate.
De exemplu, un Transcribathon Run viitor va include scanări ale cardurilor de rație de la Arhivele de Stat din Zagreb, care au fost folosite în timpul celui de-al doilea război mondial (din 1941 1945.) ca o formă de raționalizare a alimentelor și a altor resurse. Cardurile conțin indicatori demografici și socioeconomici pentru persoane fizice și/sau gospodării, cum ar fi titlurile, locurile de muncă și, prin urmare, reprezintă o sursă bogată de materiale de cercetare.
Ca pregătire pentru această cursă, READ-COOP a organizat un webinar cu angajații arhivei, pentru a le arăta cum să pregătească datele de formare. Aceste date de antrenament vor fi apoi utilizate pentru a antrena un model de scris de mână sau pentru a „învața” motorul cum să citească documentele de acest tip, astfel încât să poată oferi transcrieri mai precise în timpul rulării. Acest lucru, combinat cu competențele de corectură ale voluntarilor, ar trebui să permită arhivei din Zagreb să digitalizeze un număr mai mare de documente decât oricând.
Aflați mai multe
Puteți consulta webinarul cu privire la modul de pregătire a datelor de antrenament în acest videoclip. Veți găsi integrarea editorului pentru Recunoașterea automată a textului scris de mână pe platforma Transcribathon și puteți verifica primele rezultate din documentele Dublin.
Acest post a fost scris de Fiona Park, Content Manager READ-COOP SCE, și Philip Kahle, Software Developer, READ COOP.
