Lanciata nel 2016, la piattaforma Transcribathon è stata ulteriormente sviluppata da due progetti di servizi generici: Enrich Europeana (2018-2020) e Enrich Europeana Plus (2021-2023). La piattaforma consente ai volontari di trascrivere testi storici scritti a mano in diverse lingue e da diversi periodi storici, utilizzando nient'altro che il proprio computer. Dall'avvio dei progetti, oltre 372 000 documenti sono stati trascritti da volontari e trasformati in file di testo digitali, contribuendo ad ampliare e arricchire le vaste collezioni di beni del patrimonio culturale digitale di Europeana.
Nel 2021 il progetto Enrich Europeana Plus ha iniziato ad aggiornare la piattaforma Transcribathon con una tecnologia avanzata di riconoscimento della scrittura a mano, che utilizza l'intelligenza artificiale per fornire trascrizioni automatiche che possono poi essere verificate dai volontari. Uno dei maggiori fornitori di tale tecnologia è READ-COOP, una società cooperativa europea che gestisce il popolare software Transkribus. Enrich Europeana Plus ha lavorato per diversi mesi con READ-COOP e ha incorporato la loro tecnologia nella piattaforma Transcribathon.
Collegamento di Transcribathon con l'API "metagrapho"
Sviluppato nell'ambito di un progetto finanziato dall'UE e guidato dall'Università di Innsbruck, il software Transkribus consente di trascrivere automaticamente documenti storici scritti a mano su larga scala. La tecnologia utilizza l'IA per "imparare" a leggere tipi specifici di scrittura a mano e quindi implementa queste conoscenze per creare trascrizioni automatiche di testi. Questo accelera notevolmente il processo di trascrizione: il trascrittore non ha più bisogno di passare ore a scrivere una trascrizione da zero, in quanto può invece rileggere la trascrizione automatica.
La tecnologia di riconoscimento della scrittura a mano come Transkribus è particolarmente ideale per i progetti di citizen science. Più è facile trascrivere tali documenti, più documenti i volontari possono elaborare in un determinato lasso di tempo e più velocemente il sito web di Europeana può essere arricchito. Il team di Transcribathon era quindi desideroso di implementare questa tecnologia nella piattaforma.
A tal fine, hanno deciso di utilizzare l'API metagrapho di READ-COOP per consentire a Transcribathon di accedere alla tecnologia Transkribus. Un'API è un software che funge da messaggero tra due piattaforme diverse. Qualcuno richiede informazioni su una piattaforma e la piattaforma invia questa richiesta all'API di un'altra piattaforma. Una volta che questa seconda piattaforma ha una risposta alla richiesta, l'API la riporta alla prima piattaforma e la persona ottiene le informazioni di cui ha bisogno.
La piattaforma Transcribathon utilizza l'API metagrapho esattamente in questo modo. Quando un volontario vuole ottenere una trascrizione automatica di un testo, lo richiede sulla piattaforma Transcribathon. Transcribathon invia quindi questa richiesta all'API metagrapho, che utilizza la tecnologia di riconoscimento della scrittura a mano per elaborare l'immagine e generare una trascrizione automatica. Infine, una volta completata l'elaborazione, la piattaforma Transcribathon può accedere alla trascrizione e mostrarla al volontario, sempre tramite l'API metagrapho.
L'API metagrapho non solo fornisce la trascrizione, ma anche le coordinate per ogni riga o parola trovata nell'immagine - qualcosa che non era possibile nella vecchia versione di Transcribathon. Questa funzione consente di utilizzare le trascrizioni per ulteriori applicazioni, come l'evidenziazione di parole chiave corrispondenti nel testo durante una ricerca full-text.
Un editor di trascrizione migliorato
L'aggiornamento della tecnologia dietro Transcribathon ha fatto sì che l'editor di trascrizione - la parte che un volontario utilizza per inserire le loro trascrizioni - non fosse più in grado di far fronte al formato di dati più ricco che stava ricevendo dall'API metagrapho. Pertanto, READ-COOP ha creato un editor di trascrizione personalizzato per Transcribathon. Ciò consente alle persone di fare clic su una riga della trascrizione e vedere la riga corrispondente nell'immagine del testo.
Per accelerare il processo, READ-COOP ha preso l'editor esistente nel software Transkribus, lo ha modificato per soddisfare i requisiti di Transcribathon e lo ha trasformato in un widget. Il widget è stato quindi semplicemente inserito nella piattaforma Transcribathon, consentendo agli utenti di accedere e modificare le trascrizioni generate dall'API metagrapho. Anche l'utilizzo dell'editor Transkribus esistente e la sua semplice modifica hanno consentito di risparmiare tempo e costi di sviluppo preziosi.
Il potere della collaborazione
Questi aggiornamenti tecnologici portano Transcribathon al livello successivo. Invece di creare da zero trascrizioni che richiedono molto tempo, i volontari possono ora semplicemente correggere le trascrizioni generate automaticamente nel nuovo editor di trascrizione, aiutandoli a elaborare molti più documenti durante una corsa.
READ-COOP sta attualmente addestrando i modelli di intelligenza artificiale per il riconoscimento del testo scritto a mano sulla base di materiale già trascritto, o per materiale che sarà presto trascritto, in Transcribathon. Migliore è l'adattamento del modello AI al materiale a fuoco, più accurate saranno le trascrizioni automatiche.
Ad esempio, una prossima Transcribathon Run presenterà scansioni di carte razione dagli Archivi di Stato di Zagabria, che sono stati utilizzati durante la seconda guerra mondiale (dal 1941 1945.) come forma di razionamento di cibo e altre risorse. Le carte contengono indicatori demografici e socioeconomici per individui e / o famiglie come titoli, posti di lavoro e sono quindi una ricca fonte di materiale di ricerca.
Come preparazione per questa corsa, READ-COOP ha tenuto un webinar con i dipendenti dell'archivio, per mostrare loro come preparare i dati di formazione. Questi dati di addestramento saranno quindi utilizzati per addestrare un modello di scrittura a mano o "insegnare" al motore come leggere documenti di questo tipo, in modo che possa fornire trascrizioni più accurate durante la corsa. Questo, combinato con le capacità di correzione di bozze dei volontari, dovrebbe consentire all'archivio di Zagabria di digitalizzare un numero maggiore di documenti rispetto al passato.
Scopri di più
In questo video è possibile rivedere il webinar su come preparare i dati relativi alla formazione. Troverai l'integrazione dell'editor per il riconoscimento automatico del testo scritto a mano sulla piattaforma Transcribathon e potrai controllare i primi risultati dei documenti di Dublino.
Questo post è stato scritto da Fiona Park, Content Manager READ-COOP SCE, e Philip Kahle, Software Developer, READ COOP.
