Solo la Inteligencia Artificial podrá descrifar millones de textos antiguos

Publicado: 20 Septiembre 2021 | Escrito por Javier Orovengua | Correo electrónico | Visto: 1096

En el mundo existen millones y millones de textos antiguos repartidos por miles de bibliotecas, archivos públicos, monasterios o colecciones privadas. Por ejemplo la Biblioteca de la Abadía de St. Gall en Suiza alberga aproximadamente 160.000 volúmenes de textos literarios e históricos datados en el siglo VIII, todos ellos escritos a mano, en pergamino y redactados en idiomas y lenguas que pocas personas pueden entender hoy en día. Los fondos de nuestra propia Biblioteca Nacional se aproximan a los 28 millones de ejemplares, incluyendo una colección de manuscritos incunables (slglox IX al XV) cercana a los 30.000 volúmenes.

La tarea de transcribir la incalculable inmensidad de textos antiguos dispersos por el planeta requeriría tal cantidad de tiempo y esfuerzo que, francamente, resulta inabarcable. Probablemente, la mayoría de ese tesoro bibliográfico mundial terminará desapareciendo, se perderá en algún sótano lleno de cajas o, con suerte, permanecerá a buen recaudo sin que nadie sepa nunca qué es lo que dicen sus páginas… o quizá aparezca alguna ayuda inesperada que evite ese triste destino.

Muchas bibliotecas y archivos han puesto a disposición del público imágenes escaneadas de su catálogo pero, aun así, una fotografía de una página escrita por alguien en el siglo XII, con una letra endiablada y en un idioma irreconocible, no resulta de mucha ayuda para entender qué nos cuenta exactamente ese texto. En este caso y dentro de nuestro interminable proceso de entender el pasado necesitaremos la ayuda de una tecnología del futuro: las Inteligencias Artificiales.

Desarrollar una IA que sea capaz de leer textos escritos a mano con sus miles de florituras, adornos y particularidades propias de cada autor, redactados además en lenguas perdidas e idiomas antiguos no resulta una tarea sencilla. Si añadimos también que esos textos a menudo contienen borrones, tachados, errores, faltas de ortografía o modismos locales según la procedencia del escritor, la labor se antoja aún más complicada.

¿Seremos capaces de desarrollar una IA que pueda transcribir cartas como esta?

El journal Transactions on Pattern Analysis and Machine Intelligence ha publicado un interesante estudio, realizado por investigadores de la Universidad de Notre Dame (Indiana, EEUU) en el que presentan una red neuronal artificial capaz de leer escritura antigua compleja, donde los científicos se han basado en la percepción humana para mejorar las capacidades de transcripción de la IA.

“Trabajamos con documentos históricos escritos en estilos que han pasado de moda hace mucho tiempo, que se remontan siglos atrás y que usan idiomas y lenguas romance que apenas reconocemos hoy”, explica Walter Scheirer, profesor en Notre Dame y uno de los autores principales del artículo. “Puedes obtener fotografías de estos materiales, pero entender el texto es necesario transcribirlo y nuestra propuesta es automatizar ese proceso imitando la percepción de la página a través de los ojos del lectores expertos que proporcionan una lectura rápida y ágil de ese texto”

Si algún día queremos no solo conservar y guardar esos millones de volúmenes de conocimiento almacenado a través del tiempo, sino además entender lo que dicen esos textos debemos diseñar IA capaces de descifrar los requiebros del lenguaje, de entender la caligrafía propia de cada autor y traducir con precisión de lenguas e idiomas antiguos.