Pat Bennett tiene ahora 68 años. Es una ex directora de recursos humanos que salía a correr de manera diaria. Hasta 2012, cuando se le diagnosticó esclerosis lateral amiotrófica (ELA). Una enfermedad neurodegenerativa progresiva que ataca las neuronas que controlan el movimiento, causando debilidad física y eventual parálisis. Y entonces se quedó en silencio.

"Cuando piensas en la ELA, te imaginas su impacto en los brazos y las piernas. Pero en algunos pacientes la enfermedad comienza con dificultades del habla. Yo no puedo hablar", escribió Bennett en una entrevista realizada por correo electrónico.

Por lo general, la ELA primero se manifiesta en la periferia del cuerpo (brazos, piernas, manos y dedos). Pero en el caso de Bennett el deterioro no comenzó en su médula espinal, como es habitual, sino en su tronco cerebral. Así que todavía puede moverse, vestirse y usar sus dedos para escribir. Aunque cada día que pasa le cuesta más hacerlo.

Sin embargo, ya no puede utilizar los músculos de sus labios, lengua, laringe y mandíbula. Así que, aunque su cerebro todavía puede enviar órdenes para hablar, su cuerpo no puede llevarlas a cabo. Lo que provoca que Bennett no pueda enunciar fonemas, la unidad básica del habla, con claridad.

No es algo extraño. Las personas con trastornos neurológicos, como el accidente cerebrovascular o la ELA, a menudo deben enfrentarse a lo mismo. En el pasado estudios anteriores ya demostraron que es posible decodificar el habla a partir de la actividad cerebral de una persona con parálisis. Pero eran sistemas muy limitados. Hasta ahora.

Y es que este miércoles la revista Nature ha publicado dos artículos que prometen ser un paso importante en este campo. Se trata de dos estudios independientes que han conseguido decodificar la actividad cerebral del habla de manera más rápida y más precisa que las tecnologías existentes. Y además, también permiten un vocabulario más amplio. Todo gracias a unas interfaces, llamadas BCI, que conectan los cerebros de los pacientes con ordenadores.

El caso de Bennett

El 29 de marzo de 2022 neurocirujanos de la Facultad de Medicina de la Universidad de Stanford (EEUU) colocaron dos sensores diminutos en dos regiones separadas del cerebro de Bennett, ambas implicadas en el proceso del habla. Dichos sensores están combinados con un software de decodificación de última generación, diseñado para poder traducir la actividad cerebral que el paciente registra y convertirla en un texto, que se muestra en una pantalla de ordenador.

Los sensores fueron colocados en la corteza cerebral de Bennett, la capa más externa del cerebro. Se trata de conjuntos cuadrados de diminutos electrodos de silicio. Cada matriz contiene 64 electrodos, dispuestos en cuadrículas de 8 por 8 y separados entre sí por una distancia de aproximadamente la mitad del grosor de una tarjeta de crédito. Los electrodos penetran la corteza cerebral a una profundidad aproximadamente igual a la de dos monedas de veinticinco centavos estadounidenses apiladas.

Las matrices implantadas están unidas a finos cables de oro que salen a través de pedestales atornillados al cráneo, y que posteriormente se conectan por cable a un ordenador. Después, un algoritmo de inteligencia artificial recibe y decodifica la información que emana del cerebro, ayudándose de un sofisticado sistema de autocorrección que convierte las corrientes de fonemas en la secuencia de palabras que representan.

Después de cuatro meses, los intentos de habla de Bennett se convirtieron en palabras en una pantalla de ordenador a una velocidad de 62 palabras por minuto. Lo que significa que el sistema es más de tres veces más rápido que las anteriores tecnologías de comunicación asistida por BCI. Y a la vez, está más cerca del ritmo de conversación natural entre los hablantes de inglés, que es de 160 palabras por minuto.

Pero para conseguir todo esto fue necesario entrenar al algoritmo. Un mes después de la cirugía, Bennet comenzó a participar en sesiones de entrenamiento. Acabó haciendo 25, cada una de ellas de unas cuatro horas. Y el sistema fue mejorando a medida que se familiarizaba con su actividad cerebral. "Está entrenado para saber qué palabras deben preceder a otras, y qué fonemas forman cada palabra", explicó Frank Willett , autor principal del estudio. "Incluso si algunos fonemas fueron mal interpretados puede hacer una buena predicción", añadió.

Aún así, no es un sistema perfecto. Cuando las oraciones y el modelo de lenguaje de ensamblaje de palabras se restringieron a un vocabulario de 50 palabras (en cuyo caso las oraciones utilizadas se extrajeron de una lista especial), la tasa de error del sistema de traducción fue del 9,1%. Y cuando el vocabulario se amplió a 125.000 palabras (lo suficiente como para componer casi cualquier cosa que quieras decir) la tasa de error aumentó a 23,8%. "Está lejos de ser perfecto, pero es un paso gigante", comentaron los científicos.

Futuro

Pero como decíamos, en el mismo día se ha lanzado otro estudio similar. En este caso han sido investigadores de la Universidad de California, San Francisco (EEUU) los que desarrollaron otro sistema basado en BCI, aunque con un método diferente para acceder a la actividad cerebral.

Utilizaron electrodos no penetrantes, que se colocan en la superficie del cerebro y detectan la actividad de muchas células en sitios de toda la corteza del habla. Pero este BCI decodifica señales cerebrales para generar tres salidas simultáneamente: texto, voz audible y un avatar parlante. 

Los investigadores también tuvieron que entrenar su modelo de aprendizaje para descifrar los datos neuronales recopilados de una paciente con parálisis severa, causada por un derrame cerebral, mientras intentaba pronunciar oraciones completas en silencio. La traducción de cerebro a texto se generó una velocidad media de 78 palabras por minuto, que es 4,3 veces más rápida que el récord anterior y se acerca aún más a la velocidad de la conversación natural. 

En cuanto a los errores, este BCI logró una tasa de error del 4,9% en oraciones de un conjunto de 50 frases, un número cinco veces menor a la de los sistemas actuales. Cuando se aumentó el registro de palabras a más de 1.000 falló en un 25% de las veces. Y las simulaciones fuera de línea mostraron una tasa de error del 28% usando un vocabulario con más de 39.000 palabras. 

Las señales cerebrales también se tradujeron directamente en sonidos del habla sintetizados inteligibles que los oyentes no capacitados podían entender, con una tasa de error de palabras del 28% para un conjunto de 529 frases, y se personalizaron según la voz del participante antes de la lesión. 

El BCI también decodificó la actividad neuronal en los movimientos faciales de un avatar durante el habla, así como en expresiones no verbales. Durante meses demostró una decodificación estable y de alto rendimiento. En general, aseguran que este sistema multimodal ofrece "más posibilidades" para que las personas con parálisis se comuniquen de una manera más naturalista y expresiva.

"Estos resultados iniciales han demostrado que la tecnología se pondrá al día para que sea accesible para las personas que no pueden hablar", aseguró Bennett. Y concluyó: "Imagina cómo de diferente sería llevar a cabo actividades cotidianas como ir de compras o pedir comida. La gente podría comunicar sus pensamientos en tiempo real. Y esto significa que pueden mantenerse conectados con el mundo, tal vez seguir trabajando, mantener amigos y relaciones familiares".