Para desvelar los misterios de la literatura universal nada parece más natural en el siglo XXI que aplicar el Big Data, la IA y otros métodos computacionales. Descubrir patrones de creación, arquitectura de los versos e, incluso, grandes autores ocultos tras obras mediocres es posible gracias a algoritmos que leen lo que se esconde a simple vista.
Salvador Ros [1] es uno de los investigadores de la UNED implicados en el CLS Infra. Su misión es desarrollar, junto a otros investigadores como Víctor Fresno [2], José Luis Fernández Vindel [3] o Elena González Blanco [4], una infraestructura computacional para investigar la información oculta tras la poesía: “En los poemas sirve para identificar el tipo de rima, el número de versos, identificar personajes, patrones de estilo, percepciones o sentimientos. Se trata de una infraestructura que construye piezas de software y aplica las herramientas, por ejemplo de IA, para automatizar los estudios literarios”.
Ros destaca que los estudios computacionales están cambiando el modo en que durante siglos se ha investigado sobre prosa, poesía o teatro: “Antes el investigador iba a la biblioteca, cogía un libro y se ponía a investigar por su cuenta. La vida de una persona alcanza para leer en profundidad entre 40 y 50 libros, en cambio un algoritmo puede leerse todos los libros de la biblioteca y sacar datos relevantes, entre ellos, buscar los patrones que se repiten para encontrar relaciones que no se conocían”.
Aplicando estas herramientas se descubrió, por ejemplo, que la británica J.K. Rowling, la autora de la saga de Harry Potter, había escrito dos libros anteriores que había firmado con un seudónimo. “La descubrieron gracias a estos softwares, identificaron los patrones estilométricos y vieron que el estilo coincidían en un 90% con el de los libros de Harry Potter. Estas investigaciones se llaman análisis de autoría y podrían haber contribuido a aclarar otro de los misterios de la novela reciente: quién es realmente la escritora italiana Elena Ferrante, que se desveló en 2016 [5].
Además, Salvador Ros destaca que las nuevas herramientas obligan a investigar de un modo compartido en un campo donde los eruditos eran grandes solitarios que no compartían sus hallazgos. “Solían publicar un artículo con un resumen de la investigación, y el resto de la información se perdía. Con este sistema cambia la mentalidad. Si el investigador no está abierto a compartir no encuentra colaboración y no puede avanzar”, asegura. “El proyecto es una gran oportunidad para unir esfuerzos con otras instituciones para construir el futuro de las infraestructuras CLS en la investigación literaria”.
Estas herramientas, además, son “una mina” para la enseñanza de la poesía, asegura el investigador de la UNED: “Un estudiante de Primero de ESO puede meter un poema en el sistema y saber inmediatamente las estrofas que tiene, las figuras retóricas, el tipo de rima, los versos, etc.”.
Uno de los grandes desafíos para los estudios literarios computacionales es que las fuentes literarias digitales están muy fragmentadas, ya que los académicos y lectores luchan por encontrar textos que sean accesibles y reutilizables de manera estandarizada. CLS INFRA abordará este déficit para permitir que este campo prospere. El objetivo general del proyecto es abrir los mejores recursos de minería de datos de Europa y abrir un gran de campo de investigación en los estudios literarios computacionales, lo que permite aplicar el Big Data en el estudio de la cultura.
Los socios europeos
– UNED
– Institute of Polish Language at the Polish Academy of Sciences [6], Polonia
– University of Potsdam [7], Alemania
– Austrian Academy of Sciences [8], Austria
– École Normale Supérieure de Lyon [9], Francia
– Humboldt University of Berlin [10], Alemania
– Charles University [11], República Checa
– Digital Research Infrastructure for the Arts and Humanities [12], Francia
– Ghent Centre for Digital Humanities [13], Bélgica
– Belgrade Centre for Digital Humanities [14], Serbia
– Royal Netherlands Academy of Arts and Sciences [15], Países Bajos
– Trier Center for Digital Humanities [16], Alemania
– Moore Institute, National University of Ireland Galway [17], Irlanda