La poética del reconocimiento: fonemas, silencios y tecnología
Entre 2005 y 2007, cuando estábamos a años luz de los transformers, las redes generativas y las cómodas transcripciones de los vídeos de YouTube, mi proyecto final de ingeniería abordó la recuperación de información oral desde una perspectiva fonética.
Este proyecto exploraba cómo una máquina puede reconocer y catalogar con precisión patrones sonoros de nuestro habla humana. Para ello, desarrollé un sistema capaz de identificar palabras específicas en grabaciones, rastreando patrones lingüísticos mediante algoritmos computacionales. Mi sistema empleaba el fonema como unidad mínima semántica, en una decisión técnica importante para mi sensibilidad poética y a la que después regresaré. Este enfoque entroncaba con teorías como la de Margaret Magnus sobre el origen del lenguaje, donde los fonemas consonánticos describen el mundo exterior mientras los vocálicos cartografían nuestro paisaje interior —una dicotomía fascinante para cualquier filólogo o poeta, por la que la estructura fonética de las palabras no es arbitraria, sino que está intrínsecamente ligada a su significado.
El desafío de este trabajo académico se intensificó por partida doble: una, al programar un decodificador acústico-fonético en C (nada de python: buscaba alto rendimiento, control preciso sobre la memoria —aún tengo dolores de cabeza con esto— y baja latencia) cimentado sobre el sistema de reconocimiento de voz de la Carnegie Mellon; y dos, al aplicar el algoritmo TF-IDF para determinar la relevancia de una búsqueda.
Para complicarme la vida aún más, escogí de modelo de lenguaje los 44 fonemas de la lengua inglesa, idioma que había estudiado profusamente durante años y en el que llegué a desempeñarme como intérprete y traductora.
Arranqué con alegría este proyecto que me permitiría cerrar mi etapa en la universidad pública y obtener el título de ingeniero de telecomunicaciones, una carrera que compatibilicé como pude con mis estudios de música y piano clásico, armonía moderna y jazz. Fueron meses de trabajo absorbente, entre el asombro y la obstinación, en los que me demoré más de lo previsto al estar dividida entre las noches de radio (cada miércoles editaba y prestaba mi voz a la sección cultural de un programa en Zaragoza), algunos enredos sentimentales y, sobre todo, una relación cada vez más difícil con la escritura, que por momentos dejó de ser un medio para convertirse en un campo de batalla.
Os haré espóiler: tras mucho padecimiento, completé el proyecto, lo defendí y obtuve el título, aunque acabé con un agotamiento físico y mental extremo. Mi enfoque me permitió habitar durante casi dos años ese espacio liminal donde las matemáticas y la lingüística conversan, y le permitieron a la ingeniera y a la poeta en mí compartir métodos y obsesiones… pero a punto estuvo de acabar conmigo.
Os contaré una cosa más: mi momento "Eureka". Me lo dio la música y llegó tras muchos meses de ajustes y entrenamientos del modelo que invariablemente acababan en resultados poco alentadores. Una tarde oscura y fría de invierno zaragozano, soplando fuerte el Cierzo en aquellos páramos de Juslibol, supe de manera intuitiva que faltaba un elemento crucial en mi modelo de 44 fonemas.
Faltaba el silencio.
En cuanto incorporé el silencio como fonema número 45 de mi modelo, las puntuaciones mejoraron sustancialmente. Y esta revelación me conmovió sobremanera —el silencio no como ausencia sino como presencia significativa, también aquí en mi proyecto. El silencio como espacio donde respira el sentido, esencial tanto en la música como en la poesía.
Mi trabajo mereció un sobresaliente 9’7, qué tiempos aquellos en que las notas significaban algo. Me ofrecieron continuar la investigación y la carrera académica, pero tras reflexionar mucho decidí buscar nuevas fronteras en el universo mismo, con otro tipo de exploración: las misiones espaciales. Aunque esta decisión me alejó de mi ciudad de origen, no alejó mi pasión por la palabra. A mi manera, entonces y ahora, sigo buscando la conexión entre comunicación, ciencia y arte.
Hoy, reflexionando sobre aquellos años, me doy cuenta de que mi granito de arena a las tecnologías del habla anticipaba cuestiones que resultan cruciales para la comprensión computacional del lenguaje. Para los poetas, filólogos y gestores culturales, estas tecnologías ofrecen posibilidades atractivas: preservar recitales haciéndolos buscables, analizar patrones rítmicos y entonaciones, relacionar texto, voz e imagen simultáneamente, localizar un poema por su estructura prosódica, o encontrar ecos fonéticos entre poetas de distintas épocas y culturas.
Sobre todo, con mi trabajo logré demostrarme a mí misma que la poesía es inseparable de su dimensión oral originaria. Un poema debe funcionar en el plano textual, sí, pero el poema completo es voz, ritmo y silencio. Es performativo, escénico y efímero.
Sin más, recupero este trabajo y lo comparto en este espacio de Alejandra Dieste, el yo poético de Alejandra Carla Salas Cano. Como en todo lo académico, no cuenta nada de lo que aquí os cuento. Pero quien sepa leer entre líneas, verá lo anterior. Y quien tenga curiosidad por saber más, que me escriba, o mejor: quedemos para hablar y para compartir música, tecnología y poesía.
Postdata para los fuertes de corazón
El campo de la inteligencia artificial multimodal —que combina texto, voz e imagen— ha avanzado considerablemente, pero sigue siendo una disciplina en sus primeras etapas, especialmente cuando se trata de su aplicación en las artes. Los modelos de lenguaje actuales, como los que sustentan a las IA generativas, emplean la palabra como unidad semántica, lo que les permite generar textos con una calidad notable, incluso dentro de la poesía.
He observado una clara mejoría en estos sistemas a medida que avanzan, están aprendiendo rápidamente a adoptar los elementos distintivos del hecho poético y a generar (sobre todo en los modelos más recientes) poemas de cierta calidad técnica tanto en métrica tradicional como en verso libre.
Pero, y con esto entronco con mi proyecto final de carrera, al no estar entrenadas para reconocer el fonema como unidad básica del lenguaje, las IA aún no logran captar la esencia de los patrones rítmicos y sonoros que cimentan la poesía.
Y, aunque los avances en IA multimodal pueden abrir la puerta a nuevas formas de interacción con la palabra, para mí no está claro que estas tecnologías logren integrarse de manera significativa en campos como las artes escénicas, donde el silencio, la sonoridad y la presencia física son componentes vitales del acto creativo.
Veremos a dónde nos lleva esta deriva tecnológica.
Corolarios
La poesía sigue siendo un arte profundamente humano, y la máquina aún no puede reemplazar la complejidad del lenguaje y la emoción vivida.
Como poetas contemporáneos que exploramos la relación entre lo sonoro y lo visual, los avances tecnológicos permiten redescubrir y reforzar la dimensión oral de la poesía, recuperando ese vínculo entre el poema y la voz que, desde siempre, ha sido su núcleo.
#PoesíaContemporánea #PoesíaYTecnología #PoesíaDigital #IngenieríaDelLenguaje #NLP #PLN #MachineLearning #TecnologíaYHumanidades #Fonética #fonosemántica #MúsicaYLenguaje #IAyArte #LingüísticaComputacional #SilencioYSignificado #PoesíaOral #RecuperaciónDeInformación #FilologíaDigital