Marco Rendina: Comencemos por desempacar OCR. ¿Qué es y por qué es relevante para la preservación del patrimonio cultural?
Tom Vanallemeersch: OCR (Optical Character Recognition) o HTR (Handwritten Text Recognition) es una tecnología que produce una transcripción digital de textos impresos o manuscritos. Las transcripciones de documentos escaneados son principalmente importantes para la capacidad de búsqueda, ya que permiten que las palabras clave se utilicen para buscar un documento específico o para buscar una parte específica dentro de un documento. Para mejorar aún más esta capacidad de búsqueda, las transcripciones se pueden traducir mediante traducción automática, lo que permite a los usuarios buscar palabras en documentos en diferentes idiomas utilizando, por ejemplo, solo un término de búsqueda en inglés.
RM: ¿Qué tan efectiva es la tecnología OCR actual de última generación?
TV: Los últimos años han visto un progreso notable en la tecnología OCR, y algunos modelos OCR funcionan impresionantemente bien, especialmente en textos impresos modernos. También hay una amplia gama de modelos cada vez más especializados que satisfacen diferentes necesidades, como textos del siglo XVIII o cartas escritas a mano de la Segunda Guerra Mundial.
Sin embargo, a pesar de estos avances, persisten los desafíos debido a factores como los diferentes estilos de escritura a mano y diseños de texto, las lenguas involucradas o la presencia de «ruido» (caracteres degradados o sangrado en documentos de doble página, donde la tinta de la parte posterior aparece en la parte frontal). Problemas como el reconocimiento erróneo de caracteres pueden afectar dramáticamente la precisión de las transcripciones OCR, un problema que se hace particularmente evidente cuando estos resultados se utilizan para fines de traducción.
Basándonos en nuestra experiencia en CrossLang con el desarrollo de sistemas para el procesamiento de documentos multilingües y la automatización de la traducción, abordamos estos desafíos de frente para garantizar que la salida de OCR no solo sea precisa, sino que también esté lista para la traducción.
RM: ¿Puede explicarnos cómo prepara las transcripciones de OCR para su traducción?
TV: Por supuesto. Preparar las transcripciones para la traducción es un proceso de varios pasos.
En primer lugar, se carga el documento o imagen, y se aplica la tecnología OCR para generar una transcripción digital. Esto implica analizar el diseño de la página e identificar caracteres en las áreas de texto. Al automatizarse este proceso, la salida resultante puede contener errores como el mal reconocimiento de caracteres y la falta de espacios. Además, la salida OCR típicamente carece de segmentación, presentando líneas de caracteres impresos o escritos a mano como se muestran en la imagen, sin ninguna segmentación en oraciones. Si bien esto podría estar bien siempre y cuando el usuario final pueda leer el texto en el idioma original, usar la salida OCR directamente, incluidos sus errores ortográficos y la falta de segmentación, muy probablemente resultará en traducciones inexactas.
Empleamos varias técnicas para abordar estas inexactitudes. Mencionaré dos enfoques principales. En primer lugar, se emplean técnicas de segmentación y desinfección para identificar y separar oraciones dentro del texto y eliminar guiones de división de palabras al final de las líneas. En segundo lugar, para mejorar aún más la precisión de la salida de OCR, utilizamos herramientas basadas en léxico y modelos de lenguaje grande (LLM), incluidos chatbots de código abierto, para identificar y corregir automáticamente los errores en las palabras para alinear el texto lo más cerca posible con la imagen original.
Finalmente, con la salida OCR corregida, se puede aplicar MT para generar traducciones que sean más precisas. Este paso se basa en la calidad del texto de entrada, lo que hace que los dos pasos de corrección automática anteriores sean cruciales para lograr resultados útiles de MT.

RM: ¿Cómo evalúa si este proceso de corrección ha tenido éxito?
TV: Utilizamos métricas automatizadas como la tasa de error de caracteres (CER) y la tasa de edición de traducción (TER) para evaluar la precisión y la calidad de la salida de OCR corregida y su traducción. Estas métricas nos permiten comparar la salida de OCR corregida con la verdad fundamental (la transcripción deseada), proporcionando información valiosa sobre la eficacia de nuestros métodos. Hemos observado mejoras significativas a este respecto, ya que tanto la CER como la TER generalmente disminuyen después de la corrección de la producción de OCR.
Ocasionalmente también realizamos inspecciones manuales para garantizar la precisión general de un texto, ya que incluso un error menor podría alterar el significado de la oración, lo que podría resultar en malentendidos o inexactitudes. También puede haber casos en los que alguien (como un historiador) desea preservar ciertos elementos del texto, incluidos posibles errores (como palabras escritas erróneamente); en tales casos, un LLM podría «corregir en exceso» (de manera similar, puede reemplazar palabras escritas en una variante anterior de una lengua por sus versiones más recientes). Estos escenarios orientados a la conservación («transcripción diplomática») requieren una cuidadosa inspección manual.
RM: ¿Qué consejo daría a las instituciones de patrimonio cultural que desean integrar tecnologías avanzadas de OCR y traducción en sus esfuerzos de preservación?
TV: El consejo primordial que puedo ofrecer es seguir de cerca los desarrollos del proyecto AI4Culture. En octubre de 2024, ofreceremos un taller en línea dirigido a estudiantes y expertos en patrimonio cultural, en el que explicaremos la aplicación de OCR y MT a documentos escaneados de manera práctica y proporcionaremos algunos detalles más técnicos sobre aspectos como la corrección automatizada de los resultados de OCR. Así que mantente atento a las cuentas de redes sociales de AI4Culture.
Descubre más
En septiembre de 2024, el proyecto AI4Culture pondrá en marcha una plataforma en la que las herramientas abiertas, como las herramientas OCR presentadas anteriormente, estarán disponibles en línea, junto con la documentación y los materiales de formación conexos. ¡Manténgase atento a la página del proyecto en Europeana Pro para obtener más detalles y esté atento a la cuenta del proyecto LinkedIn y X!
