Lanzada en 2016, la plataforma Transcribathon ha sido desarrollada por dos proyectos de Servicios Genéricos: Enrich Europeana (2018-2020) y Enrich Europeana Plus (2021-2023). La plataforma permite a los voluntarios transcribir textos históricos escritos a mano en diferentes idiomas y de diferentes períodos históricos, utilizando nada más que su computadora. Desde el inicio de los proyectos, más de 372 000 documentos han sido transcritos por voluntarios y convertidos en archivos de texto digitales, lo que ha contribuido a ampliar y enriquecer las vastas colecciones de artículos del patrimonio cultural digital de Europeana.
En 2021, el proyecto Enrich Europeana Plus comenzó a actualizar la plataforma Transcribathon con tecnología avanzada de reconocimiento de escritura a mano, que utiliza inteligencia artificial para proporcionar transcripciones automáticas que luego pueden ser verificadas por voluntarios. Uno de los mayores proveedores de esta tecnología es READ-COOP, una sociedad cooperativa europea que gestiona el popular software Transkribus. Enrich Europeana Plus pasó varios meses trabajando con READ-COOP e incorporando su tecnología a la plataforma Transcribathon.
Vinculación de Transcribathon con la API «metagrapho»
Desarrollado como parte de un proyecto financiado por la UE dirigido por la Universidad de Innsbruck, el software Transkribus permite transcribir automáticamente documentos históricos manuscritos a gran escala. La tecnología utiliza la IA para «aprender» a leer tipos específicos de escritura a mano y, a continuación, aplica este conocimiento para crear transcripciones automáticas de textos. Esto acelera drásticamente el proceso de transcripción: el transcriptor ya no necesita pasar horas escribiendo una transcripción desde cero, ya que puede revisar la transcripción automática en su lugar.
La tecnología de reconocimiento de escritura a mano como Transkribus es particularmente ideal para proyectos de ciencia ciudadana. Cuanto más fácil sea transcribir esos documentos, más documentos podrán procesar los voluntarios en un plazo determinado y más rápido podrá enriquecerse el sitio web de Europeana. Por lo tanto, el equipo de Transcribathon estaba dispuesto a implementar esta tecnología en la plataforma.
Para ello, decidieron utilizar el metagrapho API de READ-COOP para permitir a Transcribathon acceder a la tecnología Transkribus. Una API es una pieza de software que actúa como un mensajero entre dos plataformas diferentes. Alguien solicita información en una plataforma, y la plataforma envía esta solicitud a la API de otra plataforma. Una vez que esta segunda plataforma tiene una respuesta a la solicitud, la API la devuelve a la primera plataforma y la persona obtiene la información que necesita.
La plataforma Transcribathon utiliza el metagrapho API exactamente de esta manera. Cuando un voluntario quiere obtener una transcripción automática de un texto, lo solicita en la plataforma Transcribathon. Transcribathon luego envía esta solicitud a la API de metagrapho, que utiliza la tecnología de reconocimiento de escritura a mano para procesar la imagen y generar una transcripción automática. Finalmente, una vez completado el procesamiento, la plataforma Transcribathon puede acceder a la transcripción y mostrarla al voluntario, nuevamente a través del metagrapho API.
La API de metagrapho no solo proporciona la transcripción, sino también las coordenadas de cada línea o incluso palabra que se encuentra en la imagen, algo que no era posible en la versión anterior de Transcribathon. Esta característica permite utilizar las transcripciones para otras aplicaciones, como resaltar palabras clave coincidentes en el texto durante una búsqueda de texto completo.
Un editor de transcripción mejorado
Actualizar la tecnología detrás de Transcribathon significaba que el editor de transcripción, la parte que un voluntario usa para ingresar sus transcripciones, ya no podía hacer frente al formato de datos más rico que recibía de la API del metagrafo. Por lo tanto, READ-COOP construyó un editor de transcripción personalizado para Transcribathon. Esto permite a las personas hacer clic en una línea de la transcripción y ver la línea correspondiente en la imagen del texto.
Para acelerar el proceso, READ-COOP tomó el editor existente en el software Transkribus, lo modificó para adaptarse a los requisitos de Transcribathon y lo convirtió en un widget. El widget se insertó simplemente en la plataforma Transcribathon, lo que permite a los usuarios acceder y editar las transcripciones generadas por la API de metagrapho. Usar el editor Transkribus existente y simplemente modificarlo también ahorró un tiempo y costos de desarrollo preciosos.
El poder de la colaboración
Estas actualizaciones tecnológicas llevan a Transcribathon al siguiente nivel. En lugar de crear transcripciones que consumen mucho tiempo desde cero, los voluntarios ahora pueden simplemente corregir transcripciones generadas automáticamente en el nuevo editor de transcripciones, ayudándoles a procesar muchos más documentos durante una ejecución.
READ-COOP está entrenando actualmente los modelos de IA de reconocimiento de texto escrito a mano sobre la base de material ya transcrito, o para material que pronto será transcrito, en Transcribathon. Cuanto mejor se adapte el modelo de IA al material en foco, más precisas serán las transcripciones automáticas.
Por ejemplo, una próxima Transcribathon Run incluirá escaneos de tarjetas de racionamiento de los Archivos Estatales de Zagreb, que se utilizaron durante la Segunda Guerra Mundial (a partir de 1941 1945) como una forma de racionamiento de alimentos y otros recursos. Las tarjetas contienen indicadores demográficos y socioeconómicos para individuos y / o hogares como títulos, trabajos y, por lo tanto, son una rica fuente de material de investigación.
Como preparación para esta carrera, READ-COOP realizó un seminario web con los empleados del archivo, para mostrarles cómo preparar los datos de capacitación. Estos datos de entrenamiento se utilizarán para entrenar un modelo de escritura a mano o «enseñar» al motor cómo leer documentos de este tipo, de modo que pueda proporcionar transcripciones más precisas durante la carrera. Esto, combinado con las habilidades de revisión de los voluntarios, debería permitir al archivo de Zagreb digitalizar un mayor número de documentos que nunca.
Descubre más
Puede revisar el seminario web sobre cómo preparar los datos de formación en este vídeo. Encontrará la integración del editor para el reconocimiento automático de texto escrito a mano en la plataforma Transcribathon y puede consultar los primeros resultados de los documentos de Dublín.
Este post fue escrito por Fiona Park, Content Manager READ-COOP SCE, y Philip Kahle, Software Developer, READ COOP.
